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PROLOGO 


El objetivo principal perseguido con este libro es ofrecer a los estudiantes un manual 
estadístico básico que, sin descuidar el rigor conceptual, proporciona una visión práctica e 
intuitiva de la estadística descriptiva y el cálculo de probabilidades, campos básico y 
fundamentos de la ciencia estadística. El contenido del manual estadística descriptiva y 
probabilidad se organizó en dos partes, en la primera descriptiva estadística se estudia, siendo 
la segunda dedicada al cálculo de las probabilidades. En cualquier caso, se debe notar que, en 
un análisis inferencial, también debemos hacer un estudio descriptivo de la muestra. La 
importancia del estudio multidimensional se debe al hecho de considerar la existencia de 
posibles interacciones entre las diferentes variables en estudio. 


Cada uno de los capítulos del libro comienza con una presentación del tipo de problema a 
ser resuelto, la exposición continua de las ilustradas con varios ejemplos contenidos y, a veces 
acompañada de un ejercicio que busca profundizar un tema de interés, terminar con ejercicios 
resueltos, que intenta globalizar los aspectos más relevantes del capítulo. El manual, como la 
actual, es salpicado con ejemplos y ejercicios hecho y, sin la pretensión de ser un libro teórico, 
el lector que así lo desee puede encontrar respuestas fundamentadas cuestiones conceptuales 
que están surgiendo. 
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HISTORIA DE LA ESTADÍSTICA 


Hablar de la historia de la estadística, implica hablar del inicio de la civilización. Existe una 
gran diversidad sobre los inicios de la estadística. En este texto, haremos un recorrido breve 
sobre el desarrollo de la Estadística. 


El término Estadística fue empleado por primera vez por Gottfried Achenwall (1719-1772), 
el cual proviene de la palabra de origen italiana "Statistik". 


La estadística fue utilizada por los egipcios para analizar los datos de la población, la renta 
(Aproximadamente siglo XXXII A. de C). En el antiguo testamento, primera parte de la Biblia, 
se encuentran los libros de "Números" y “Crónicas”, donde se pueden observar algunos 
registros estadísticos. 


El libro de Números contiene dos censos de la población de Israel y el de Crónicas describe 
la prosperidad económica de las tribus judías. 


En sentido general, los grandes registros estadísticos de la antigúedad descansan en censos 
y cobro de impuestos. 


Se registros de que el Imperio romano fue el primero en recopilar gran cantidad de datos 
sobre la población, superficie y la renta de todas las comarcas bajo su dominio. 


En 1662 se conoce como el primer estudio estadístico de mayor trascendencia sobre 
población, el trabajo titulado "Observations on the London Bills of Mortality” (Londres). 


Para hablar sobre el desarrollo de la estadística, hay que destacar los aportes de grandes 
personalidades de la ciencia. Á continuación, se presentan algunas de estas grandes 
personalidades: 


John Graunt (1620-1674): Es el primer estadístico que se va a considerar como el padre de 
la Estadística. En 1662 publicó "Observaciones naturales y políticas”, fundamentado en los 
boletines de mortalidad, considerándose este documento como el punto de partida de la 
estadística. 


Thomas Bayes (1702-1761): Sus actividades científicas, fueron las matemáticas y la 
inferencia estadística. Después de la muerte de Bayes, Price, recibe de parte de los familiares 
de Bayes, escritos sobre matemáticas que Bayes había dejado, para que Price los estudiara. El 
trabajo de Bayes demuestra la divergencia de la serie log(n!), corrigiendo a la de Motvre. El 
ensayo Bayes determina un intervalo de confianza bayesiano para el parámetro £u de una 
distribución de Bernoulli a partir de n repeticiones del experimento de Bernoulli. 


Laplace (1749-1827): Pierre Simon de Laplace nace en Beaumont-en-Auge. En 1774 publica 
Memoria sobre la probabilidad de las causas por los sucesos. 


Karl Pearson (1857-1936): En 1903 publicó un artículo titulado Sobre la teoría general de la 
asimetría, la correlación y la regresión no lineal. Algunas contribuciones de K. Pearson a la 
Teoría de la Probabilidad y a la Inferencia Estadística son: 


Introduce su familia de curvas y ajusta sus parámetros, introduciendo el método de los 
momentos. Esta familia de curvas son las soluciones de una ecuación diferencial e incluye a las 
distribuciones, Beta asimétrica, la Beta simétrica, la Gamma y la Normal, entre otras. 


Define el coeficiente de correlación lineal precisando las ideas introducidas por Galton. 
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William Sealy Gosset (STUDENT), (1876-1937): Publica trabajos sobre control de calidad, 
la ley de errores, la distribución de los errores. 


Algunas contribuciones de (Student) William Sealy Gosset son: 

La demostración de la convergencia de la distribución binomial a la distribución de Poisson. 
Estableciendo su distribución, donde X es la media muestral y S2, la cuasi varianza muestral. 
Introdujo la función de potencia de un contraste dado por la región crítica. 


Ronald Aylmer Fisher (1890-1962): Escribió "La Fundamentación Matemática de la 
Estadística Teórica, introduciendo la noción de modelo estadístico y los conceptos de 
consistencia, eficiencia, precisión, validación e información. Desarrolló el análisis de la 
varianza y los principios del diseño de experimentos. En 1925 publica su primer libro titulado 
"Métodos Estadísticos”. En 1930 formula La Teoría Genética de la Selección Natural. En 1956 
publica Métodos Estadísticos e Inferencia Científica. 
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FUNDAMENTOS DE LA ESTADÍSTICA 


La estadística recoge, ordena y analiza datos para estudiar las características o el 
comportamiento de un colectivo. 


Es el conjunto de métodos científicos ligados a la toma, organización, recopilación, 
presentación y análisis de datos, tanto para la deducción de conclusiones como para tomar 
decisiones razonables de acuerdo con el análisis. 


Sobre estadística se presentan diversos conceptos; por tal razón les presento los siguientes 
conceptos sobre estadística: 


+ La estadística es una rama de las matemáticas que se ocupa de reunir, organizar y 
analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y 
la toma de decisiones. 


e La Estadística es la parte de las Matemáticas que se encarga de recoger datos, 
organizarlos, tabularlos, representarlos gráficamente, interpretarlos y analizarlos, para sacar 
conclusiones, tomar decisiones o predecir, a partir del estudio o investigación que se esté 
realizando sobre alguna característica, propiedad o situación en una población determinada. 


CONCEPTOS BÁSICOS DE LA ESTADÍSTICA 


Daremos a conocer solamente el vocabulario estadístico básico, los demás términos se 
definirán ha mediado que se vaya presentando la necesidad. 


VARIABLE 


Es el conjunto de las características de las entidades que interesan en una investigación 
estadística. 


Los valores que pueden tomar una variable en estadística no se pueden medir antes de 
realizar el experimento estadístico; por lo tanto el valor es aleatorio(al azar). 


Las características que se pueden medir en una “entidad” son de tipo cuantitativo 
(categórico); como cada característica es una variable aleatoria, estas tienen las siguientes 
subdivisiones: 





Contínua 
Variable Cuantitativa e 
| VARIABLE ALEATORIA ! Discreta 
Variable Cualitativa o 
Categorica 





VARIABLE CUANTITATIVA 


Se dice que una variable es cuantitativa siempre que los valores que son el resultado de 
medidas numéricas. Ejemplo de variable cuantitativa son la densidad, el peso, la viscosidad, la 
temperatura, etc. 
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Variable Cuantitativa Continua 


Una variable continua es aquella que teóricamente pueden tomar cualquier valor dentro de 
un intervalo de valores. Es decir, una variable continua se mede uniformemente. Por ejemplo, 
si la variable en gramos la definimos como X, esta puede estar en el intervalo 50g < X <70g. 


Cuantitativa Discreta Variable 


Cuando los valores numéricos que pueden tomar una variable son números enteros, la 
variable se denomina discreta. Por ejemplo, si la variable es la edad cumplida en años de una 
persona, esta solo puede tomar los valores de 1,2, 3,..., 120 (s1 la expectativa de vida es 120 
años) 


VARIABLE CUALITATIVA 


Hay muchas cosas en que no es posible hacer medidas numéricas. Por ejemplo, la variable 
“color” puede recibir los valores cualitativos de rojo, verde, amarillo, etc. Una variable cuyos 
valores consiste en categorías de clasificación se denomina variable cualitativa. 


DIVISIÓN DE LA ESTADÍSTICA 


La estadística se divide en dos grandes partes: 


Estadística descriptiva: Se encarga de la recolección, descripción, visualización y resumen 
de los datos, y que se pueden presentar de forma numérica o de forma gráfica. 


La Estadística descriptiva, se encarga del "estudio sobre la población completa, 
observando una característica de la misma y calculando unos parámetros que den información 
global de toda la población". 


Y” Para variables cualitativas se calcula los porcentajes y las tasas 
Y” Para variables cuantitativas se tiene las medidas de tendencia central (promedios, 
moda mediana) y las medidas de dispersión (dispersión varianza rango entre otros) 


Estadística inferencial: Se encarga de las predicciones relacionadas a los fenómenos 
estudiados, considerando la selección de tipo aleatoria y la incertidumbre en las observaciones. 


La Estadística inferencial, "realiza el estudio descriptivo sobre un subconjunto de la 
población llamado muestra y, posteriormente, extiende los resultados obtenidos a toda la 
población". 


Para variables cualitativas: el chi cuadrado 


Para variables cualitativas: la paramétrica (T' de Student, ANOVA) para las no paramétricas 
(U de Mann-Whitney, Prueba de Kruskal-Wallis ) y para Asociaciones de variables la regresión 
y correlación. 
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1. INTRODUCCIÓN AL ANÁLISIS DE DATOS 
1.1. La probabilidad en la actualidad 


. La importancia de la probabilidad reside en el hecho de que, por medio de ese recurso 
matemático, es posible ajustar con la mayor precisión posible los imponderables debidos al azar 
en los más variados campos de la ciencia y de la vida cotidiana. En efecto, la probabilidad es 
una estrategia por la cual tratamos de estimar la frecuencia con que un determinado resultado 
se obtiene en el contexto de una experiencia en la que se conocen todos los resultados posibles. 
Así, el ejemplo más tradicional es definir cuál es la prevalencia de obtener un número jugando 
un dado. En seis resultados posibles, sólo es posible obtener un número cada vez que se 
contabiliza el dato. 


En este caso, la probabilidad se puede expresar como uno en seis, un sexto, la sexta parte o, 
en términos matemáticos precisos, 0,16 o 16%. La importancia esencial de la aplicación de 
métodos de cálculo de probabilidad reside en su capacidad para estimar o prever eventos. 
Cuanto mayor sea la cantidad de datos disponibles para calcular la probabilidad de un evento, 
más preciso será el resultado calculado. Dada la complejidad de los sistemas en que la teoría de 
la probabilidad es usualmente aplicada, son necesarios modelos computacionales y estadísticos 
de gran elaboración, lo que sería imposible no contar con los recursos tecnológicos modernos 
relacionados a la computación. 


Un buen ejemplo de su aplicabilidad diaria es el análisis del comercio de commodities en las 
actuales relaciones internacionales. Como la mayoría de los factores involucrados en la 
estimación de la producción es aleatoria, la teoría de la probabilidad es de gran importancia, ya 
que intenta ajustar en conceptos matemáticos cuál será la evolución de los eventos para calcular, 
por ejemplo, la producción final. de cereales, combustibles fósiles y otros recursos de una zona 
geográfica. Por lo tanto, la probabilidad es una herramienta fundamental en la planificación 
estratégica de los movimientos sociales, económicos y laborales de toda la comunidad. El 
análisis permite describir los comportamientos de la información, obtener conclusiones y dar 
recomendaciones para la toma de decisiones. 


Algunos fenómenos poseen características aleatorias, por lo tanto, es conveniente estudiar 
la posibilidad de ocurrencia de eventos relacionados a este fenómeno, esa posibilidad será 
denominada probabilidad. Con su estudio, los resultados de los fenómenos o experimentos 
aleatorios son analizados y con ellos es posible tomar decisiones en la presencia de 
incertidumbre. 


1.2. Análisis de tendencias estadísticas 


Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un solo 
valor a un conjunto de valores. Representan un centro en torno al cual se encuentra ubicado el 
conjunto de los datos. Dicho en otros términos las medidas de dispersión pretenden evaluar en 
qué medida los datos difieren entre sí. De esta forma, ambos tipos de medidas usadas en 
conjunto permiten describir un conjunto de datos entregando información acerca de su posición 
y su dispersión. 


Los procedimientos para obtener las medidas estadísticas difieren levemente dependiendo 
de la forma en que se encuentren los datos. 
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1.2.1. Medidas de tendencia central 


A. Promedio o media 


La medida de tendencia central más conocida y utilizada es la media aritmética o promedio 
aritmético. Se representa por la letra griega u cuando se trata del promedio del universo o 
población y por Y (léase Y barra) cuando se trata del promedio de la muestra. 


S1 una muestra tiene cuatro observaciones: 6, 5, 2 y 2, por definición el estadígrafo será: 


6+5+2+2_ 


y = a 


En este caso el promedio está dado por 


Y1 LN Y A Y3 + Vii Ya 


A > 


De aquí se desprende la fórmula definitiva del promedio: 


y_ 2% Yi 
n 


B. Mediana 


Otra medida de tendencia central es la mediana. La mediana es el valor de la variable que 
ocupa la posición central, cuando los datos se disponen en orden de magnitud. Es decir, el 350% 
de las observaciones tiene valores iguales o inferiores a la mediana y el otro 50% tiene valores 
iguales O superiores a la mediana. 


S1 el número de observaciones es par, la mediana corresponde al promedio de los dos valores 
centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es (9+11)/2=10. 


C. Moda 


La moda de una distribución se define como el valor de la variable que más se repite. En un 
polígono de frecuencia la moda corresponde al valor de la variable que está bajo el punto más 
alto del gráfico. Una muestra puede tener más de una moda. 


1.2.2. Desviaciones 
Se define como la desviación de un dato a la diferencia entre el valor del dato y la media: 
Desviación = Y, — Y 


Ejemplo de desviaciones: 
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Una propiedad interesante de la media aritmética es que la suma de las desviaciones es 
cero. 


1.2.3. Medidas de dispersión 


Las medidas de dispersión entregan información sobre la variación de la variable. Pretenden 
resumir en un solo valor la dispersión que tiene un conjunto de datos. Las medidas de 
dispersión más utilizadas son: Rango de variación, Varianza, Desviación estándar, 
Coeficiente de variación. 


A. Rango de variación 


Se define como la diferencia entre el mayor valor de la variable y el menor valor de la 
variable. 


Rango de Variación = Máximo - Mínimo 
B. Varianza y desviación estándar 


La mejor medida de dispersión, y la más generalizada es la varianza, o su raíz cuadrada, la 
desviación estándar. La varianza se representa con el símbolo o? (sigma cuadrado) para el 
universo O población y con el símbolo s2 (s cuadrado), cuando se trata de la muestra. La 
desviación estándar, que es la raíz cuadrada de la varianza, se representa por o (sigma) cuando 
pertenece al universo o población y por “s”, cuando pertenece a la muestra. o? y o son 
parámetros, constantes para una población particular; s2 y s son estadígrafos, valores que 
cambian de muestra en muestra dentro de una misma población. 


Fórmulas 
Donde u es el promedio de la población. 


de us 
M N 


Donde Y es el promedio de la muestra. 


O 
S == Ez>_———————————————. 
n= 1 


Consideremos a modo de ejemplo una muestra de 4 observaciones 


Según la fórmula el promedio calculado es 7, veamos ahora el cálculo de las medidas de 
dispersión: 
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Y” S2¿=34/3=11,33 Varianza de la muestra 
Y” La desviación estándar de la muestra (s) será la raíz cuadrada de 11,33 = 3,4. 


Interpretación de la varianza (válida también para la desviación estándar): un alto valor de 
la varianza indica que los datos están alejados del promedio. Es difícil hacer una interpretación 
de la varianza teniendo un solo valor de ella. La situación es más clara si se comparan las 
varianzas de dos muestras, por ejemplo, varianza de la muestra igual 18 y varianza de la muestra 
b igual 25. En este caso diremos que los datos de la muestra b tienen mayor dispersión que los 
datos de la muestra a. esto significa que en la muestra a los datos están más cerca del promedio 
y en cambio en la muestra b los datos están más alejados del promedio. 


C. Coeficiente de variación 


Es una medida de la dispersión relativa de los datos. Se define como la desviación estándar 
de la muestra expresada como porcentaje de la media muestral. 


g 
CY =—- 100% 
m7 


Doncle: 

Y = Coeficiente dle variación. 

gd = desviación estandar de la población. 
E = media artmética de la población. 


Es de particular utilidad para comparar la dispersión entre variables con distintas unidades 
de medida. Esto porque el coeficiente de variación, a diferencia de la desviación estándar, es 
independiente de la unidad de medida de la variable de estudio. 


1.2.4. Medidas de tendencia central y de dispersión en datos agrupados 


Se identifica como datos agrupados a los datos dispuestos en una distribución de frecuencia. 
En tal caso las fórmulas para el cálculo de promedio, mediana, modo, varianza y desviación 
estándar deben incluir una leve modificación. A continuación, se entregan los detalles para cada 
una de las medidas. 


A. Promedio en datos agrupados 


La fórmula es la siguiente: 


Y” Donde n/ representa cada una de las frecuencias correspondientes a los diferentes 
valores de Y/. 


Ejemplo: 


Una distribución de frecuencia de madres que asisten a un programa de lactancia materna, 
clasificadas según el número de partos. Por tratarse de una variable en escala discreta, las clases 
o categorías asumen sólo ciertos valores: 1, 2, 3, 4, 5. 
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Yí- n% de partos ni Yi ni Ni (Frec 
acumulada 





Entonces las 42 madres han tenido, en promedio, 2,78 partos. 


Si la variable de interés es de tipo continuo será necesario determinar, para cada intervalo, 
un valor medio que lo represente. Este valor se llama marca de clase (Yc) y se calcula 
dividiendo por 2 la suma de los límites reales del intervalo de clase. De ahí en adelante se 
procede del mismo modo que en el ejercicio anterior, reemplazando, en la fórmula de promedio, 
Yi por Yc. 


B. Mediana en datos agrupados 


Si la variable es de tipo discreto la mediana será el valor de la variable que corresponda a la 
frecuencia acumulada que supere inmediatamente a n/2. En los datos de la tabla 1 Me=3, ya 
que 42/2 es igual a 21 y la frecuencia acumulada que supera inmediatamente a 21 es 33, que 
corresponde a un valor de variable (Y1) igual a 3. 


S1 la variable es de tipo continuo es necesario, primero, identificar la frecuencia acumulada 
que supere en forma inmediata a n/2, y luego aplicar la siguiente fórmula: 

N 

—= PF, 

ño 17 

Me=L, , + *—-:a 
Ji 

Donde: 


L;¡-1 = Límite inferior del intervalo mediana 

a = Amplitud del intervalo mediana 

F¡-1= Frecuencia acumulada anterior al intervalo mediana 
f, = Frecuencia absoluta del intervalo mediana 

N = Total de datos 


C. Moda en datos agrupados 


S1 la variable es de tipo discreto la moda o modo será al valor de la variable (Y1) que tenga 
la mayor frecuencia absoluta . En los datos de la tabla 1 el valor de la moda es 3 ya que este 
valor de variable corresponde a la mayor frecuencia absoluta =16. 


Más adelante se presenta un ejemplo integrado para promedio, mediana, varianza y 
desviación estándar en datos agrupados con intervalos. 


D. Varianza en datos agrupados 


Para el cálculo de varianza en datos agrupados se utiliza la fórmula 
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NO 
E O 
R—1 


Con los datos del ejemplo y recordando que el promedio (Y) resultó ser 2,78 partos por 


madre. 
7 


+H| 0 ha lps [al > 
1) 0 Ly “ 
Hi [mn MJ 

Ra Dial - 


5 A. A 
. 2 
3,1684 12,67 
0,6084 9 


79 
506 7] 


3 un¡+ju 
3] 


4 
e 





No 


2 ¿ 


R=1 =45,06/42-1= 45,06 /41 = 








Cuando los datos están agrupados en intervalos de clase, se trabaja con la marca de clase 
(Yc), de tal modo que la fórmula queda: 





Donde Yc es el punto medio del intervalo y se llama marca de clase del intervalo 
Yc= (Límite inferior del intervalo + límite superior del intervalo) /2. 


E. Percentiles 


Los percentiles son valores de la variable que dividen la distribución en 100 partes 1guales. 
De este modo si el percentil 80 (P80) es igual a 35 años, significa que el 80% de los casos tiene 
edad igual o inferior a 33 años. 





5% 25 50% 75 % 95 % 
Percentil Percentil Percentil Percentil Percentil 














Percentiles 


Su procedimiento de cálculo es relativamente simple en datos agrupados sin intervalos. 


Retomemos el ejemplo de la variable número de partos: 


pb 





El percentil ¡ (P]) corresponde al valor de la variable (Y1) cuya frecuencia acumulada supera 
inmediatamente al “*;” % de los casos (¡xn/100). 


El percentil 80, en los datos de la tabla, será el valor de la variable cuyo Ni sea 
inmediatamente superior a 33,6 ((80x42) /100). 


El primer Ni que supera a 33,6 es 39. Por lo tanto, al percentil 80 le corresponde el valor 4. 
Se dice entonces que el percentil 80 es 4 partos (P80=4). Este resultado significa que un 80% 
de las madres estudiadas han tenido 4 partos o menos. 


Si los datos están agrupados en una tabla con intervalos, el procedimiento es levemente más 
complejo ya que se hace necesaria la aplicación de una fórmula. 


Se aplica a los datos del intervalo cuya frecuencia acumulada ( Ni ) sea inmediatamente 
superior al “5” % de los casos (jxn/100). 


En la siguiente tabla se muestra la distribución de 40 familias según su ingreso mensual en 
miles de pesos. Nótese que para calcular el centro de clase se usaron los límites reales de cada 


intervalo. 


¿ 
2.413,76 |19310.08 |20 [8 | 


LP ——Tra69aso | | 7 





La mediana será: 


eS 


po | 
| 


Me = e LE) 
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Esto significa que un 50% de las familias tiene ingreso mensual igual o inferior a $127.270. 
El percentil 78 será: 


E | 
dns AAN 
Pro = a e, 


ze, 


=160+14,66 =174,66 


Por lo tanto, se puede decir que 78% de las familias tienen ingreso igual o inferior a 
$174.660. 


Los percentiles 10 y 90 serán: 


En 
pro= 11100 774 804 E 00=80+10=90 
a 
poo = 119 00724 2004 23350 200+10=210 


2 


A base de los valores de los percentiles 10 y 90 se pueden hacer tres afirmaciones: 


Y” El 10% de las familias tiene ingreso igual o inferior a $90.000. 
Y” El 90% de las familias tiene ingreso igual o inferior a $210.000. 
Y” El 80% central, de las familias, tiene ingreso entre $90.000 y $210.000 


La varianza será: 


¿ 


io» a 
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= 74.694,5 / 39 = 1915,24 


La desviación estándar es la raíz cuadrada de esta cifra, es decir: 43,76. 


1.2.5. Distribución muestral de medias 


S1 tenemos una muestra aleatoria de una población N(u,o ), se sabe (Teorema del límite 
central) que la fdp de la media muestral es también normal con media u y varianza 0/n. Esto 
es exacto para poblaciones normales y aproximado (buena aproximación con n>30) para 


poblaciones cualesquiera. Es decir as da es el error típico, o error estándar de la media. 


¿Cómo usamos esto en nuestro problema de estimación? 


1* problema: No hay tablas para cualquier normal, sólo para la normal u=0 y o=1 (la llamada z); 
pero haciendo la transformación (llamada tipificación) 
_X-p 


Z 





7 Fx una normal de media u y desviación o se transforma en una z. 
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Llamando Za al valor de una variable normal tipificada que deja a su 
derecha un área bajo la curva de a, es decir, que la probabilidad que la 
variable sea mayor que ese valor es a(estos son los valores que ofrece la tabla 
de la normal) 


podremos construir intervalos de la forma 


2, 
4H 
Aa 7 Za 
Jn 
0/2 042 
para los que la probabilidad es 1 - a. 7 Zen 


Teniendo en cuenta la simetría de la normal y manipulando algebraicamente 


== E 


X= Zar ón 


— EF 
MEX TH za > 


Jn 


que también se puede escribir 
> "el 
do E 
F 


O, haciendo énfasis en que 0! vn es el error estándar de la media, 
Amthz MBE(A) 


Recuérdese que la probabilidad de que u esté en este intervalo es 1 - a. A un intervalo de 
este tipo se le denomina intervalo de confianza con un nivel de confianza del 100(1 - a)%, 
o nivel de significación de 100a%. El nivel de confianza habitual es el 95%, en cuyo 


caso a=0,05 y Za /2=1,96. Al valor % se le denomina estimación puntual y se dice que 
es un estimador de u. 


EJEMPLO: Si de una población normal con varianza 4 se extrae una muestra aleatoria de 


tamaño 20 en la que se calcula Am 3,5 
estar comprendida en el intervalo 


se puede decir que utiene una probabilidad de 0,95 de 


DO A =/4,42 6,18) 


¿20 


que sería el intervalo de confianza al 95% para u 


En general esto es poco útil, en los casos en que no se conoce 1 tampoco suele conocerse o”; 
en el caso más realista de o” desconocida los intervalos de confianza se construyen con la t de 
Student (otra fdpcontinua para la que hay tablas) en lugar de la z. 


XHt. Je 


Fin 


. % . E y a E 
O, haciendo énfasis en que es el error estándar estimado de la media, 
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Xt, BE X) 
Esta manera de construir los intervalos de confianza sólo es válida si la variable es normal. 


Cuando n es grande (>30) se puede sustituir £ por z sin mucho error. 


1.3. Datos discretos y continuos 


Al trabajar con estadísticas, es importante reconocer los diferentes tipos de datos: numéricos 
(discretos y continuos), categóricos y ordinales. 


Los datos son las piezas de información reales que recopila a través de su estudio. Por 
ejemplo, si le preguntas a cinco de tus amigos cuántas mascotas tienen, pueden darte los 
siguientes datos: O, 2, 1, 4, 18. 


No todos los datos son números, digamos que también registras el sexo de cada uno de tus 
amigos, obteniendo los siguientes datos: masculino, masculino, femenino, masculino, 
femenino. 


La mayoría de los datos caen en uno de dos grupos: numéricos o categóricos. 


Pero aún es importante tener al menos una comprensión básica de los diferentes tipos de 
datos y los tipos de preguntas que puede usar para responder. 


A continuación, se explica cómo podemos recopilar estos diferentes tipos de datos, y para 
qué tipo de análisis podríamos usarlo. 


1.3.1. Los dos principales tipos de datos: cualitativos y cuantitativos 





Nominal Ordinal 


En el nivel más alto, existen dos tipos de datos: cuantitativo y cualitativo. 






La información cuantitativa trata de números y cosas que puede medir objetivamente: 
dimensiones como altura, ancho y longitud. Temperatura y humedad. Precios. Area y volumen 


Los datos cualitativos tratan con características y descripciones que no se pueden medir 
fácilmente, pero que se pueden observar subjetivamente, como los olores, los sabores, las 
texturas, el atractivo y el color. 


En términos generales, cuando mides algo y le das un valor numérico, creas datos 
cuantitativos. Cuando clasifica o juzga algo, crea datos cualitativos. Hasta aquí todo bien. Pero 
este es solo el nivel más alto de datos: también hay diferentes tipos de datos cuantitativos y 
cualitativos. 
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1.3.2. Tipos cuantitativos: datos continuos y datos discretos 


Hay dos tipos de datos cuantitativos, que también se conocen como datos numéricos: 
continuo y discreto. Como regla general, los recuentos son discretos y las mediciones son 
continuas. 


Los datos discretos son un conteo que no se puede hacer más preciso. Por lo general, implica 
números enteros. Por ejemplo, el número de niños (o adultos, o mascotas) en su familia es 
información discreta, porque está contando entidades enteras e indivisibles: no puede tener 2.5 
hijos o 1.3 mascotas. 


Los datos continuos, por otro lado, podrían dividirse y reducirse a niveles cada vez más 
finos. Por ejemplo, puede medir la altura de sus hijos en escalas progresivamente más precisas 
(metros, centímetros, milímetros y más), por lo que la altura es un dato continuo. 


S1 cuento el número de manís individuales en una caja, ese número es una pieza de datos 
discretos. 


Si utilizo una balanza para medir el peso de cada maní, o el peso de toda la caja, eso es 
información continua. 


Los datos continuos se pueden usar en muchos tipos diferentes de pruebas de hipótesis. Por 
ejemplo, para evaluar la precisión del peso impreso en la caja de manís, podríamos medir 30 
cajas y realizar una prueba t de l muestra. 


Algunos análisis usan datos cuantitativos continuos y discretos al mismo tiempo. 


Por ejemplo, podríamos realizar un análisis de regresión para ver si el peso de los manís 
(datos continuos) está correlacionado con el número de manís en el interior (datos discretos). 


1.3.3. Tipos Cualitativos: Datos Binomiales, Datos Nominales y Datos Ordinales 


Cuando se clasifica o categoriza algo, se crea datos cualitativos o de atributos. Hay tres tipos 
principales de datos cualitativos. 


Los datos binarios colocan las cosas en una de dos categorías mutuamente excluyentes: 
correcto / incorrecto, verdadero / falso o aceptar / rechazar. 


Ocasionalmente, obtendrémos una caja de manís que contiene un par de piezas individuales 
que son demasiado duras o demasiado secas. S1 revisé la casilla y clasifiqué cada pieza como 
"Bueno" o "Malo", serían datos binarios. 


Podría usar este tipo de datos para desarrollar un modelo estadístico para predecir con qué 
frecuencia puedo esperar obtener un maní malo. 


Al recopilar datos no ordenados o nominales, asignamos elementos individuales a categorías 
con nombre que no tienen un valor o rango implícito o natural. Si revisé una caja de manís y 
grabé el color de cada una en mi hoja de trabajo, serían datos nominales. 


Este tipo de datos se puede usar de muchas maneras diferentes; por ejemplo, podría usar el 
análisis de chi-cuadrado para ver si hay diferencias estadísticamente significativas en las 
cantidades de cada color en un cuadro. 


También podemos tener datos ordenados u ordinales, en los que los elementos se asignan a 
categorías que tienen algún tipo de orden implícito o natural, como "Corto, Medio o Alto". 


27 


Otro ejemplo es una pregunta de la encuesta que nos pide que califiquemos un artículo en 
una escala de 1 a 10, siendo 10 el mejor. Esto implica que 10 es mejor que 9, que es mejor que 
8, y así sucesivamente. 


Los usos de los datos ordenados son un tema de debate entre los estadísticos. 


Todos coinciden en que es apropiado para crear gráficos de barras, pero más allá de eso, no 
se sabe más. 


1.3.4. Modelado estadístico, inspección científica y representación grafica de datos 


En términos sencillos, el modelado estadístico es una forma simplificada, matemáticamente 
formalizada, de aproximarse a la realidad (1.e., la que genera los datos) y, opcionalmente, hacer 
predicciones a partir de dicha aproximación. 


Veamos un ejemplo básico. Supongamos que deseamos informar sobre el peso de una 
variedad de patatas. Podemos considerar una forma difícil y otra fácil de hacerlo. La difícil 
consiste en emplear años midiendo el peso de cada patata de esta variedad a lo largo del mungo, 
y trasladar los datos a una hoja Excel interminable. La fácil, consiste en seleccionar 30 patatas 
ampliamente representativas de la variedad que nos interesa, calcular su media y su desviación 
estándar, e informar únicamente sobre esas magnitudes como una descripción aproximada del 
peso. Representar una cantidad por una media y una desviación estándar es una forma muy 
simple de modelado estadístico. 


Otro ejemplo es intentar representar la altura de las plantas en función del agua del suelo 
mediante una línea recta caracterizada por una pendiente y una intercepción, trazada después 
de realizar un experimento sobre una muestra de plantas sometidas a una humedad del suelo 
creciente. Este modelo particular se denomina regresión lineal simple. 


Linear regression of plant height by Soil 
water content 
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Soil water content (explanatory var.) 


—— Model 





En la mayoría de los casos, los modelos estadísticos implican variables explicativas y 
variables dependientes. 


La variable dependiente es aquella que queremos describir, explicar, o predecir. Como 
norma general, la variable dependiente es la representada en el eje Y en los gráficos. En el 
ejemplo de la altura de las plantas, la variable dependiente es la altura de la planta. 
Las variables explicativas, también denominadas variables independientes, son aquellas que 
usamos para explicar, describir o predecir la(s) variable(s) dependiente(s). Las variables 
explicativas generalmente se representan en el eje X. En el ejemplo de la altura de las plantas 
solo usamos una variable independiente cuantitativa (el contenido en agua del suelo). 
Tanto las variables dependientes como las explicativas pueden ser una o varias, cuantitativas O 
cualitativas. Se han desarrollado modelos adaptados a las diferentes situaciones. 


28 


A. ¿Qué es un parámetro de un modelo? 


En los modelos clásicos, paramétricos, la(s) variable(s) dependiente(s) está vinculada a las 
explicativas a través de una ecuación matemática (el modelo) que implica cantidades 
denominadas parámetros del modelo. En el ejemplo de la altura de las plantas (regresión lineal 
simple) los parámetros son la intercepción y la pendiente. La ecuación puede representarse así: 


Altura = intercepción + pendiente*contenido en agua del suelo 


Los cálculos que subyacen al modelado estadístico permiten la estimación de los parámetros 
del modelo, así como ulteriores predicciones de la variable dependiente. 
¡La regresión lineal simple implica también un tercer parámetro, la varianza de los residuos 
(vid. párrafo siguiente). 


B. ¿Qué es un residuo de un modelo? 


Técnicamente, los residuos (o errores) de un modelo son las distancias entre los puntos que 
representan los datos y el modelo (que está representado por una línea recta en el ejemplo de 
regresión lineal simple de la altura de las plantas). 


Linear regression of plant height by Soil 
water content 











Plant height (dependent var.) 


0 5 10 15 20 25 30 35 
Soil water content (explanatory var.) 


—— Model 
WN Residuals (errors) 


Los residuos del modelo representan la parte de variabilidad de los datos que el modelo ha 
sido incapaz de capturar. El estadístico R? es la parte de variabilidad que es explicada por el 
modelo. Así, mientras más pequeños sean los residuos, mayor será el estadístico R2. 


R?=0.997 R?=0.774 
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C. ¿Qué modelo estadístico debería elegir? 


Esta tabla le guiará en la elección de los modelos más frecuentemente usados de acuerdo al 
tipo y número de variables dependientes e independientes. También se proponen soluciones 
distintas a los modelos paramétricos. 


D. Representación gráfica en el Análisis de Datos 


La realización de los estudios clínico-epidemiológicos implica finalmente emitir unos 
resultados cuantificables de dicho estudio o experimento. La claridad de dicha presentación es 
de vital importancia para la comprensión de los resultados y la interpretación de los mismos. Á 
la hora de representar los resultados de un análisis estadístico de un modo adecuado, son varias 
las publicaciones que podemos consultarl. Aunque se aconseja que la presentación de datos 
numéricos se haga habitualmente por medio de tablas, en ocasiones un diagrama o un gráfico 
pueden ayudarnos a representar de un modo más eficiente nuestros datos. 


Se abordará la representación gráfica de los resultados de un estudio, constatando su utilidad 
en el proceso de análisis estadístico y la presentación de datos. Se describirán los distintos tipos 
de gráficos que podemos utilizar y su correspondencia con las distintas etapas del proceso de 
análisis. 


Y” Análisis descriptivo. 


Cuando se dispone de datos de una población, y antes de abordar análisis estadísticos más 
complejos, un primer paso consiste en presentar esa información de forma que ésta se pueda 
visualizar de una manera más sistemática y resumida. Los datos que nos interesan dependen, 
en cada caso, del tipo de variables que estemos manejando?. 


Para variables categóricas, como el sexo, profesión, etc., se quiere conocer la frecuencia y 
el porcentaje del total de casos que "caen” en cada categoría. Una forma muy sencilla de 
representar gráficamente estos resultados es mediante diagramas de barras o diagramas de 
sectores. En los gráficos de sectores, también conocidos como diagramas de "tartas", se divide 
un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le 
corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Un ejemplo se 
muestra en la Figura. Como se puede observar, la información que se debe mostrar en cada 
sector hace referencia al número de casos dentro de cada categoría y al porcentaje del total que 
estos representan. Si el número de categorías es excesivamente grande, la imagen 
proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación 
ideal es cuando hay alrededor de tres categorías. En este caso se pueden apreciar con claridad 
dichos subgrupos. 


Ejemplo de gráfico de sectores. Distribución de una muestra de pacientes según el hábito 
de fumar. 
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Los diagramas de barras son similares a los gráficos de sectores. Se representan tantas barras 
como categorías tiene la variable, de modo que la altura de cada una de ellas sea proporcional 
a la frecuencia o porcentaje de casos en cada clase . Estos mismos gráficos pueden utilizarse 
también para describir variables numéricas discretas que toman pocos valores (número de hijos, 
número de recidivas, etc.). 


Ejemplo de gráfico de barras. Estadio "NM en el cáncer gástrico. 
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Para variables numéricas continuas, tales como la edad, la tensión arterial o el índice de masa 
corporal, el tipo de gráfico más utilizado es el histograma. Para construir un gráfico de este tipo, 
se divide el rango de valores de la variable en intervalos de igual amplitud, representando sobre 
cada intervalo un rectángulo que tiene a este segmento como base. El criterio para calcular la 
altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas 
(o relativas) de los datos en cada intervalo y el área de los rectángulos. Como ejemplo, la Tabla 
Imuestra la distribución de frecuencias de la edad de 100 pacientes, comprendida entre los 18 
y 42 años. S1 se divide este rango en intervalos de dos años, el primer tramo está comprendido 
entre los 18 y 19 años, entre los que se encuentra el 4/100=4% del total. Por lo tanto, la primera 
barra tendrá altura proporcional a 4. Procediendo así sucesivamente, se construye el histograma 
que se muestra en la figura. Uniendo los puntos medios del extremo superior de las barras del 
histograma, se obtiene una imagen que se llama polígono de frecuencias. Dicha figura pretende 
mostrar, de la forma más simple, en qué rangos se encuentra la mayor parte de los datos. Un 
ejemplo, utilizando los datos anteriores, se presenta en la figura 


Ejemplo de un histograma correspondiente a los datos de la Tabla 
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Polígono de frecuencias para los datos de la Tabla 


Los diagramas de barras son similares a los gráficos de sectores. Se representan tantas barras 
como categorías tiene la variable, de modo que la altura de cada una de ellas sea proporcional 
a la frecuencia o porcentaje de casos en cada clase . Estos mismos gráficos pueden utilizarse 
también para describir variables numéricas discretas que toman pocos valores (número de hijos, 
número de recidivas, etc.). 


Ejemplo de gráfico de barras. Estadio "NM en el cáncer gástrico. 
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Para variables numéricas continuas, tales como la edad, la tensión arterial o el índice de masa 
corporal, el tipo de gráfico más utilizado es el histograma. Para construir un gráfico de este tipo, 
se divide el rango de valores de la variable en intervalos de igual amplitud, representando sobre 
cada intervalo un rectángulo que tiene a este segmento como base. El criterio para calcular la 
altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas 
(o relativas) de los datos en cada intervalo y el área de los rectángulos. Como ejemplo, la Tabla 
[muestra la distribución de frecuencias de la edad de 100 pacientes, comprendida entre los 18 
y 42 años. S1 se divide este rango en intervalos de dos años, el primer tramo está comprendido 
entre los 18 y 19 años, entre los que se encuentra el 4/100=4% del total. Por lo tanto, la primera 
barra tendrá altura proporcional a 4. Procediendo así sucesivamente, se construye el histograma 
que se muestra en la Figura . Uniendo los puntos medios del extremo superior de las barras del 
histograma, se obtiene una imagen que se llama polígono de frecuencias. Dicha figura pretende 
mostrar, de la forma más simple, en qué rangos se encuentra la mayor parte de los datos. Un 
ejemplo, utilizando los datos anteriores, se presenta en la Figura . 


Ejemplo de un histograma correspondiente a los datos de la Tabla 
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Edad 


Polígono de frecuencias para los datos de la Tabla 1. 


Edad 


Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el 
concepto de percentiles, mediante diagramas de cajas4,5. La Figura muestra un gráfico de 
cajas correspondiente a los datos de la Tabla I. La caja central indica el rango en el que se 
concentra el 50% central de los datos. Sus extremos son, por lo tanto, el ler y 3er cuartil de la 
distribución. La línea central en la caja es la mediana. De este modo, si la variable es simétrica, 
dicha línea se encontrará en el centro de la caja. Los extremos de los "bigotes" que salen de la 
caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden 
con los valores extremos de la distribución. Se suelen también representar aquellas 
observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta 
especialmente útil para comprobar, gráficamente, posibles errores en nuestros datos. En 
general, los diagramas de cajas resultan más apropiados para representar variables que 
presenten una gran desviación de la distribución normal. Como se verá más adelante, resultan 
además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos. 


Ejemplo de un diagrama de caja correspondiente a lo datos en la Tabla L. 
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Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para 
posteriores análisis, comprobar la normalidad de alguna de las variables numéricas de las que 
se dispone. Un diagrama de cajas o un histograma son gráficos sencillos que permiten 
comprobar, de un modo puramente visual, la simetría y el "apuntamiento” de la distribución 
de una variable y, por lo tanto, valorar su desviación de la normalidad. Existen otros métodos 
gráficos específicos para este propósito, como son los gráficos P-P o Q-Q. En los primeros, 
se confrontan las proporciones acumuladas de una variable con las de una distribución normal. 
S1 la variable seleccionada coincide con la distribución de prueba, los puntos se concentran 
en torno a una línea recta. Los gráficos Q-Q se obtienen de modo análogo, esta vez 
representando los cuantiles de distribución de la variable respecto a los cuantiles de la 
distribución normal. En la Figura se muestra el gráfico P-P correspondientes a los datos de la 
Tabla I que sugiere, al igual que el correspondiente histograma y el diagrama de cajas, que la 
distribución de la variable se aleja de la normalidad. 


Gráfico P-P de normalidad para los datos de la Tabla IL 
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Comparación de dos o más grupos. 


Cuando se quieren comparar las observaciones tomadas en dos o más grupos de individuos 
una vez más el método estadístico a utilizar, así como los gráficos apropiados para visualizar 
esa relación, dependen del tipo de variables que estemos manejando. 


Cuando se trabaja con dos variables cualitativas podemos seguir empleando gráficos de 
barras o de sectores. Podemos querer determinar, por ejemplo, si en una muestra dada, la 
frecuencia de sujetos que padecen una enfermedad coronaria es más frecuente en aquellos que 
tienen algún familiar con antecedentes cardiacos. A partir de dicha muestra podemos 
representar, como se hace en la Figura , dos grupos de barras: uno para los sujetos con 
antecedentes cardiacos familiares y otro para los que no tienen este tipo de antecedentes. En 
cada grupo, se dibujan dos barras representando el porcentaje de pacientes que tienen o no 
alguna enfermedad coronaria. No se debe olvidar que cuando los tamaños de las dos 
poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro 
caso el gráfico podría resultar engañoso. 


Diagrama de barras agrupadas. Relación entre la presencia de alguna enfermedad 
coronaria y los antecedentes cardiacos familiares en una muestra. 
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Por otro lado, la comparación de variables continuas en dos o más grupos se realiza 
habitualmente en términos de su valor medio, por medio del test t de Student, análisis de la 
varianza o métodos no paramétricos equivalentes, y así se ha de reflejar en el tipo de gráfico 
utilizado. En este caso resulta muy útil un diagrama de barras de error, como en la Figura . En 
él se compara el índice de masa corporal en una muestra de hombres y mujeres. Para cada 
grupo, se representa su valor medio, junto con su 95% intervalo de confianza. Conviene 
recordar que el hecho de que dichos intervalos no se solapen, no implica necesariamente que 
la diferencia entre ambos grupos pueda ser estadísticamente significativa, pero sí nos puede 
servir para valorar la magnitud de la misma. Así mismo, para visualizar este tipo de 
asociaciones, pueden utilizarse dos diagramas de cajas, uno para cada grupo. Estos diagramas 
son especialmente útiles aquí: no sólo permiten ver si existe o no diferencia entre los grupos, 
sino que además nos permiten comprobar la normalidad y la variabilidad de cada una de las 
distribuciones. No olvidemos que las hipótesis de normalidad y homocedasticidad son 
condiciones necesarias para aplicar algunos de los procedimientos de análisis paramétricos. 


Barras de error. Variación en el índice de masa corporal según el sexo. 
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Por último, señalar que también en esta situación pueden utilizarse los ya conocidos 
gráficos de barras, representando aquí como altura de cada barra el valor medio de la variable 
de interés. Los gráficos de líneas pueden resultar también especialmente interesantes, sobre 
todo cuando interesa estudiar tendencias a lo largo del tiempo (Figura). No son más que una 
serie de puntos conectados entre sí mediante rectas, donde cada punto puede representar 
distintas cosas según lo que nos interese en cada momento (el valor medio de una variable, 
porcentaje de casos en una categoría, el valor máximo en cada grupo, etc). 


Gráfico de líneas. Número de pacientes trasplantados renales en el Complexo Hospitalario 
"Juan Canalejo” durante el periodo 1981-1997, 
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Número de transplantes 





Relación entre dos variables numéricas. 


Cuando lo que interesa es estudiar la relación entre dos variables continuas, el método de análisis adecuado es el 
estudio de la correlación. Los coeficientes de correlación (Pearson, Spearman, etc.) valoran hasta qué punto el valor de una 
de las variables aumenta o disminuye cuando crece el valor de la otra. Cuando se dispone de todos los datos, un modo 
sencillo de comprobar, gráficamente, si existe una correlación alta, es mediante diagramas de dispersión, donde se 
confronta, en el eje horizontal, el valor de una variable y en el eje vertical el valor de la otra. Un ejemplo sencillo de variables 
altamente correlacionados es la relación entre el peso y la talla de un sujeto. Partiendo de una muestra arbitraria, podemos 
construir el diagrama de dispersión de la Figura 10. En él puede observarse claramente como existe una relación directa 
entre ambas variables, y valorar hasta qué punto dicha relación puede modelizarse por la ecuación de una recta. Este tipo 
de gráficos son, por lo tanto, especialmente útiles en la etapa de selección de variables cuando se ajusta un modelo de 
regresión lineal. 


Figura 10. Diagrama de dispersión entre la talla y el peso de una muestra de individuos. 
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Otros gráficos. 


Los tipos de gráficos mostrados hasta aquí son los más sencillos que podemos manejar, pero 
ofrecen grandes posibilidades para la representación de datos y pueden ser utilizados en 
múltiples situaciones, incluso para representar los resultados obtenidos por métodos de análisis 
más complicados. Podemos utilizar, por ejemplo, dos diagramas de líneas superpuestos para 
visualizar los resultados de un análisis de la varianza con dos factores (Figura 11). Un diagrama 
de dispersión es el método adecuado para valorar el resultado de un modelo de regresión 
logística (Figura 12). Existen incluso algunos análisis concretos que están basados 
completamente en la representación gráfica. En particular, la elaboración de curvas ROC 
(Figura 13) y el cálculo del área bajo la curva constituyen el método más apropiado para valorar 
la exactitud de una prueba diagnóstica. 


Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones gráficas 
pueden alcanzar en el proceso de análisis de datos. La mayoría de los textos estadísticos y 
epidemiológicos4 hacen hincapié en los distintos tipos de gráficos que se pueden crear, como 
una herramienta imprescindible en la presentación de resultados y el proceso de análisis 
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estadístico. No obstante, es difícil precisar cuándo es más apropiado utilizar un gráfico que una 
tabla. Más bien podremos considerarlos dos modos distintos pero complementarios de 
visualizar los mismos datos. La creciente utilización de distintos programas informáticos hace 
especialmente sencillo la obtención de las mismas. La mayoría de los paquetes estadísticos 
(SPSS, STATGRAPHICS, S-PLUS, EGRET.,...) ofrecen grandes posibilidades en este sentido. 
Además de los gráficos vistos, es posible elaborar otros gráficos, incluso tridimensionales, 
permitiendo grandes cambios en su apariencia y facilidad de exportación a otros programas 
para presentar finalmente los resultados del estudio. 


Figura 11. Dos diagramas de líneas superpuestos. Variación en el peso medio de una muestra 
de recién nacidos según el control ginecológico del embarazo y el hábito de fumar de la madre. 
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Figura 12. Diagrama de dispersión (regresión logística). Probabilidad de padecer cirrosis 
hepática, según un modelo de regresión logística ajustando por el % de protrombina y el 
presentar o no hepatomegalia. 
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Figura 13. Curva ROC para el porcentaje de protrombina en la predicción de cirrosis. 
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2. PROBABILIDAD 


La probabilidad es una medida de la certidumbre asociada a un suceso o evento futuro y 
suele expresarse como un número entre U y 1 (o entre 0 % y 100 %). 


Una forma tradicional de estimar algunas probabilidades sería obtener la frecuencia de un 
acontecimiento determinado mediante la realización de experimentos aleatorios, de los que se 
conocen todos los resultados posibles, bajo condiciones suficientemente estables. Un suceso 
puede ser improbable (con probabilidad cercana a cero), probable (probabilidad intermedia) o 
seguro (con probabilidad uno). 


La teoría de la probabilidad se usa extensamente en áreas como la estadística, la física, la 
matemática, las ciencias, la administración, contaduría, economía y la filosofía para sacar 
conclusiones sobre la probabilidad discreta de sucesos potenciales y la mecánica subyacente 
discreta de sistemas complejos, por lo tanto, es la rama de las matemáticas que estudia, mide o 
determina los experimentos o fenómenos aleatorios. 


2.1. Espacio muestral 


En la teoría de probabilidades, el espacio muestral o espacio de muestreo (denotado E, S, Q 
o U) consiste en el conjunto de todos los posibles resultados de un experimento aleatorio, junto 
con una estructura sobre el mismo (ver más adelante). 


Por ejemplo, si el experimento consiste en lanzar dos monedas, el espacio muestral es el 
conjunto ( (cara, cara), (cara, cruz), (cruz, cara) y (cruz, cruz)j. Un evento o suceso es cualquier 
subconjunto del espacio muestral con estructura de c-álgebra,1 llamándose a los sucesos que 
contengan un único elemento sucesos elementales. En el ejemplo, el suceso "sacar cara en el 
primer lanzamiento”, o ((cara, cara), (cara, cruz)j, estaría formado por los sucesos elementales 
[(cara, cara)) y [(cara, cruz)j. 


Para algunos tipos de experimento puede haber dos o más espacios de muestreo posibles. 
Por ejemplo, cuando se toma una carta de un mazo normal de 52 cartas, una posibilidad del 
espacio de muestreo podría ser el número (del as al rey), mientras que otra posibilidad sería el 
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palo (diamantes, tréboles, corazones y picas). Una descripción completa de los resultados, sin 
embargo, especificaría ambos valores, número y palo, y se podría construir un espacio de 
muestreo que describiese cada carta individual como el producto cartesiano de los dos espacios 
de muestreo descritos. 


Los espacios de muestreo aparecen de forma natural en una aproximación elemental a la 
probabilidad, pero son también importantes en espacios de probabilidad. Un espacio de 
probabilidad (42, F, P) incorpora un espacio de muestreo de resultados, (2, pero define un 
conjunto de sucesos de interés, la c-álgebra F, por la cual se define la medida de probabilidad 
Pp: 


Formalmente, un espacio muestral es una tripleta donde es el conjunto al que pertenecen 
los sucesos elementales, una colección de subconjuntos de que forma una c-álgebra de 
subconjuntos (los subconjuntos , son los eventos aleatorios no elementales), y finalmente es 
una medida de conjuntos que permite asignar probabilidades a los sucesos o eventos del espacio 
muestral. 


2.1.1. Tipos de espacio muestral 
Podemos diferenciar entre dos tipos de espacios muestrales: discretos y continuos. 
A. Discretos 
Son aquellos espacios donde el número de sucesos elementales es finito o infinito numerable. 


Y” Espacio Probabilístico discreto 


Es aquel cuyo espacio muestral es discreto. Podemos diferenciar varios tipos de espacio 
probabilístico discreto: 


Y” Espacio Probabilístico Discreto Equiprobable 
Su espacio muestral es finito de tamaño n. 
La probabilidad de cualquier suceso elemental E 
Y” Espacio Probabilístico Finito 
Su espacio muestral es discreto finito. 
Hay al menos 2 sucesos elementales que cumplen. 
Y” Procesos Estocásticos Finitos Y Diagramas de Árbol 


Un proceso estocástico es una sucesión finita de experimentos aleatorios, cada uno de ellos 
con un n* finito de resultados posibles. Se representan con diagrama de árbol. 


Y” Espacio Probabilístico Infinito Contable 
Aquel cuyo espacio muestral es discreto infinito contable. Por ejemplo 
La probabilidad de que salga cara en la primera tirada ----> Ya 
La probabilidad de que salga cara en la segunda tirada ---->Y * Ya = 1/4 


La probabilidad de que salga cara en la tercera tirada ----> Y * Ya * Y = 1/8 
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B. Continuos 


Son aquellos espacios donde el número de sucesos elementales es infinito incontable. 
Y” Espacio probabilístico continuo 


Espacio muestral infinito no numerable. -No es posible observar puntos concretos del 
espacio. 


Tiene sentido hablar de intervalos observados. - No es posible asignar probabilidad a un 
punto concreto, se asigna a intervalos. 


Por tanto la función P está definida sobre intervalos ----- > P(K1 < Exp > Ke) 
Habitualmente cuando trabajamos con magnitudes físicas. 
Y” Particiones 


Es posible definir particiones sobre el espacio muestral. Formalmente hablando, una 
partición sobre (2 se define como un conjunto numerable. 


Ejemplos 


Por ejemplo, en el caso del experimento aleatorio "lanzar un dado”, el espacio muestral del 
experimento sería: (2=Í1,2,3,4,5,6j. Por otro lado, si cambiamos ligeramente la experiencia 
pensando en el número resultante de la suma de 2 dados, entonces tenemos 2 espacios 
muestrales: 


*— 0=((1,0,4,,03),0,0,1,9,0,6),0,D,Q,2),...(6,6)) = (1,2,3,4,5,6)x([1,2,3,4,5,6) 
*— 0=2,34...,12) 


La elección del espacio muestral es un factor determinante para realizar el cálculo de la 
probabilidad de un suceso. 


En resumen, podemos mostrar lo siguiente 





2.2. Eventos 


En estadística, un evento o suceso es un subconjunto de un espacio muestral, es decir, un 
conjunto de posibles resultados que se pueden dar en un experimento aleatorio. 
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Formalmente, sea (2 un espacio muestral, entonces un evento es un subconjunto , donde 
(w1,w2,...) son una serie de posibles resultados. 


Se dice que un evento Á ocurre, si el resultado del experimento aleatorio es un elemento de 
A. 


2.2.1. Tipos de eventos 
A. Evento simple o suceso elemental 


Un suceso o evento simple es un subconjunto del espacio muestral que contiene un único 
elemento. 


Ejemplos de espacios muestrales y sucesos elementales: 


Y Si se trata de contar objetos y el espacio muestral S = (0, 1, 2, 3, ...) dos números 
naturales), entonces los sucesos elementales son cada uno de los conjuntos (kj, 
donde k E N. 

Y” Si se lanza una moneda dos veces, S = [cc, cs, sc, ss], donde (c representa "sale cara" 
y s, "sale cruz”), los sucesos elementales son [cc], (cs), [scj y [ss]. 

Y” Si X es una variable aleatoria normalmente distribuida, S = (-oo, +00), los números 
reales, los sucesos elementalesson todos los conjuntos (x), dondex E . 


Los sucesos elementales pueden tener probabilidades que son estrictamente mayores que 
cero, cero, no definidas o cualquier combinación de estas. Por ejemplo, la probabilidad de 
cualquier variable aleatoria discreta está determinada por las probabilidades asignadas a los 
sucesos elementales del experimento que determina la variable. Por otra parte, cualquier suceso 
elemental tiene probabilidad cero en cualquier variable aleatoria continua. Existen 
distribuciones mixtas que no son completamente continuas, ni completamente discretas, entre 
las que pueden darse ambas situaciones. 


B. Otros sucesos 


+  — Unevento compuesto es un subconjunto. 


e Los eventos triviales son el conjunto universal (2 y el conjunto vacío. Al primero se le 
llama también evento seguro, y al segundo, evento imposible. 


e — Sean dos eventos A y B, si ambos son conjuntos disjuntos, entonces ellos son eventos 
excluyentes. 


+ Un evento con elementos infinitos pero numerables se llama c-álgebra (sigma-álgebra), 
y un evento con elementos finitos se llama álgebra de sucesos de Boole. 


2.3. Conteo de puntos muestrales 
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Son algunas reglas que se usan con el fin de contar el número de puntos muestrales de un 
experimento cuando estos no son fáciles de listar por su cantidad. 


2.3.1. Regla MNT 


Se usa cuando el experimento consiste en formar subconjuntos ordenados de elementos 
donde cada uno de estos elementos pertenece a un conjunto independiente o se hace un 
muestreo con reemplazo; por ejemplo el juego de lotería o chance; sacar una tripleta de un 
conjunto de 20 elementos donde un elemento puede ocupar las tres posiciones al tiempo, es 
decir el elemento que ha sido extraído vuelve a formar parte del conjunto inicial, esto es lo que 
se conoce como un muestreo con reemplazo. 


2.3.2. Combinaciones 


Se usa cuando el experimento consiste en formar subconjuntos de elementos de un mismo 
conjunto, es decir, un muestreo sin reemplazo, ademas no importa el orden de salida de los 
elementos; por ejemplo sacar de un grupo de 6 personas 3 para darles un premio, sacar de un 
grupo de 7 trabajadores 4 para realizar una misma tarea. 


El número de combinaciones posibles esta dado por la siguiente expresión 


n! 
CA = 
" (n—r]xr! 


A. Tipos de Combinaciones 
También hay dos tipos de combinaciones (recuerda que ahora el orden no importa): 


Y” Se puede repetir: como monedas en tu bolsillo (5,5,5,10,10) 
Y Sin repetición: como números de lotería (2,14,15,27,30,33) 


Combinaciones con repetición 
En realidad, son las más difíciles de explicar, así que las dejamos para luego. 


Combinaciones sin repetición 
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Así funciona la lotería. Los números se eligen de uno en uno, y si tienes los números de la 
suerte (da igual el orden) ¡entonces has ganado! 


La manera más fácil de explicarlo es: Imaginemos que el orden sí importa (permutaciones), 
después lo cambiamos para que el orden no importe. 


Volviendo a las bolas de billar, digamos que queremos saber qué 3 bolas se eligieron, no el 
orden. 


Ya sabemos que 3 de 16 dan 3360 permutaciones. 


Pero muchas de ellas son iguales para nosotros, porque no nos importa el orden. 


Por ejemplo, digamos que se tomaron las bolas 1, 2 y 3. Las posibilidades son: 


El orden El orden no 
importa importa 





Así que las permutaciones son 6 veces más posibilidades. 


De hecho, hay una manera fácil de saber de cuántas maneras "1 2 3" se pueden ordenar, y 
ya la sabemos. La respuesta es: 


31=3x2x1=6 


(Otro ejemplo: ¡4 cosas se pueden ordenar de 4! =4 x 3 x 2 Xx 1 = 24 maneras distintas, 
¡prueba tú mismo!) 


Así que sólo tenemos que ajustar nuestra fórmula de permutaciones para reducir por las 
maneras de ordenar los objetos elegidos (porque no nos interesa ordenarlos): 


n) 1 n! 
———= X= = Ii] 
nr! rl rin—r) 


Esta fórmula es tan importante que normalmente se la escribe con grandes paréntesis, así: 





rin 


donde nes el número de cosas que puedes elegir, y eliges rde ellas 
(No se puede repetir, el orden no importa) Y se la llama "coeficiente binomial”. 


Notación 


Además de los "grandes paréntesis”, la gente también usa estas notaciones: 


| Fi FE. 
Ciirle Te=de= — 


ir rlin—")! 
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Ejemplo 
Entonces, nuestro ejemplo de elegir 3 bolas de billar de 16 (ahora sin orden) es: 


16! 16! 20,922,789,888,000 
= 2 — = 560 


31(16-3) 3113)  6x6,227,020,800 





O lo puedes hacer así: 


16x15x14 3360 PE 
3x2x1 6 


Es interesante darse cuenta de que la fórmula es bonita y simétrica: 


n! E mn o fan 
rln—y+ri Ar ln —r 


Con otras palabras, elegir 3 bolas de 16 da las mismas combinaciones que elegir 13 bolas de 
16. 


16! 16! 16! 


Sica Sari aaa adan = 560 
31(16- 3)! 13!(16-13)! 3!1x13! 


Triángulo de Pascal 


Puedes usar el triángulo de Pascal para calcular valores. Baja a la fila "n” (la de arriba es 


n=0), y ve a la derecha "r" posiciones, ese valor es la respuesta. Aquí tienes un trozo de la fila 
16: 


1] 14 91 364... 
l 15 105 455 1365. ... 
l 16 120 560 1820 4368. ... 
Y” Combinaciones con repetición 


Digamos que tenemos cinco sabores de helado: banana, chocolate, limón, fresa y vainilla. 
Puedes tomar 3 paladas. ¿Cuántas variaciones hay? 


Vamos a usar letras para los sabores: (b, c, 1, f, vj. Algunos ejemplos son 


Y fe, c, cy (3 de chocolate) 
Y” [b,l, v) (uno de banana, uno de limón y uno de vainilla) 
Y” [b, v, v) (uno de banana, dos de vainilla) 


(Y para dejarlo claro: hayn=5cosas para elegir, y  eligesr=3de ellas. 
El orden no importa, ¡y sí puedes repetir!) 


Bien, no puedo decirte directamente cómo se calcula, pero te voy a enseñar una técnica 
especial para que lo averigies tú mismo. 


Imagina que el helado está en contenedores, podrías decir "sáltate el primero, después 3 
paladas, después sáltate los 3 contenedores siguientes” ¡y acabarás con 3 paladas de chocolate! 
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Entonces es como si ordenaras a un robot que te trajera helado, pero no cambia nada, tendrás 
lo que quieres. 


Ahora puedes escribirlo como +0003>>3>3 (la flecha es saltar, el círculo es tomar) 


Entonces los tres ejemplos de arriba se pueden escribir así: 
Y fc, c, c) (3 de chocolate): 3200033 


Y [b, 1, v] (uno de banana, uno de limón y O0>3>0>>30 


uno de vainilla): 


Y [b, v, v] (uno de banana, dos de vainilla): — O3+=3>=3>300 


OK, entonces ya no nos tenemos que preocupar por diferentes sabores, ahora tenemos un 
problema más simple para resolver: "de cuántas maneras puedes ordenar flechas y círculos" 


Fíjate en que siempre hay 3 círculos (3 paladas de helado) y 4 flechas (tenemos que movernos 
4 veces para 1r del contenedor 1* al 59). 


Así que (en general) hay r + (n-1) posiciones, y queremos que r de ellas tengan círculos. 


Esto es como decir "tenemos r + (n-1) bolas de billar y queremos elegir r de ellas". Es decir, 
es como el problema de elegir bolas de billar, pero con números un poco distintos. Lo podrías 
escribir así: 


n+r-1]  (n4+r-1) 
yr cra — 1) 


donde n es el número de cosas que puedes elegir, y eliges r de ellas (Se puede repetir, el 
orden no importa) 


Es interesante pensar que podríamos habernos fijado en flechas en vez de círculos, y 
entonces habríamos dicho "tenemos r + (n-1) posiciones y queremos que (n-1) tengan flechas”, 
y la respuesta sería la misma... 


Mela n+r-1 n-+r-—1) 
y E => rin — 1) 
¿Qué pasa con nuestro ejemplo, cuál es la respuesta? 


B+3-=D!_ 7! _ 5040 _,. 
(BD!  31x41 








6x24 


En conclusión es un montón de cosas que absorber, quizás tendrías que leerlo otra vez 
para entenderlo todo bien! 


Pero saber cómo funcionan estas fórmulas es sólo la mitad del trabajo. Averiguar cómo 
se interpreta una situación real puede ser bastante complicado. 


Por lo menos ahora sabes cómo se calculan las 4 variantes de "el orden si/no importa" 
y "sí/no se puede repetir". 
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2.3.3. Permutaciones 


Se usa cuando el experimento consiste en formar subconjuntos de elementos de un mismo 
conjunto, es decir, un muestreo sin reemplazo, pero en este caso si importa el orden de salida 
de los elementos; por ejemplo sacar de un grupo de 6 personas 3 para darles un premio, pero 
dependiendo de su orden de salida el premio será mejor. Sacar de un grupo de 7 trabajadores 4 
para realizar una tarea distinta cada uno. 


El número de permutaciones posibles está dado por la siguiente expresión: 


pn — n! 
“  (n—r) 


Nótese que 

[as Beba 
Nota: Recordar que P(A) = m/n 

mel 
Donde x es el número de elementos escogidos del subgrupo r. (S1 importa el orden). 
met. 

Donde x es el número de elementos escogidos del subgrupo r. (Si no importa el orden). 
n: número de combinaciones o permutaciones según el caso. 


A. ¿Qué diferencia hay Combinaciones y permutaciones? 


Normalmente usamos la palabra "combinación" descuidadamente, sin pensar en si 
el orden de las cosas es importante. En otras palabras: 


"Mi ensalada de frutas es una combinación de manzanas, uvas y bananas": no importa en 
qué orden pusimos las frutas, podría ser "bananas, uvas y manzanas” o "uvas, manzanas y 
bananas”, es la misma ensalada. 


"La combinación de la cerradura es 472": ahora sí importa el orden. "724" no funcionaría, 
ni "247". Tiene que ser exactamente 4-7-2. 


Así que en matemáticas usamos un lenguaje más preciso: 


Y” Si el orden no importa, es una combinación. 
Y” Si el orden sí importa es una permutación. 


Con otras palabras: Una permutación es una combinación ordenada. 


B. Tipos de Permutaciones 
Hay dos tipos de permutaciones: 
Y Se permite repetir: como la cerradura de arriba, podría ser "333". 
Y” Sin repetición: por ejemplo los tres primeros en una carrera. No puedes quedar 
primero y segundo a la vez. 


Y” Permutaciones con repetición 
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Son las más fáciles de calcular. Si tienes n cosas para elegir y eliges r de ellas, las 
permutaciones posibles son: 


nxnX.. (rveces) = n' 
(Porque hay n posibilidades para la primera elección, DESPUÉS hay n posibilidades para la 
segunda elección, y así.) 
Por ejemplo, en la cerradura de arriba, hay 10 números para elegir (0, 1, ...,9) y eliges 3 de 
ellos: 


10x 10 x ... (3 veces) = 10% = 1000 permutaciones 


Así que la fórmula es simplemente: n" donde n es el número de cosas que puedes elegir, y eliges r de 
ellas (Se puede repetir, el orden importa) 


Y” Permutaciones sin repetición 
En este caso, se reduce el número de opciones en cada paso. 


Por ejemplo, ¿cómo podrías ordenar 16 bolas de billar? Después de elegir por ejemplo la 
"14" no puedes elegirla otra vez. 


Así que tu primera elección tiene 16 posibilidades, y tu siguiente elección tiene 15 
posibilidades, después 14, 13, etc. Y el total de permutaciones sería: 


16 x 15 x 14 x 13... = 20,922,789,888,000 
Pero a lo mejor no quieres elegirlas todas, sólo 3 de ellas, así que sería solamente: 
16 x 15 x 14 = 3360 
Es decir, hay 3,360 maneras diferentes de elegir 3 bolas de billar de entre 16. ¿Pero cómo lo 
escribimos matemáticamente”? Respuesta: usamos la "función factorial" 
La función factorial (símbolo: !) significa que se multiplican números descendentes. 
Ejemplos: 


Y 41=4x3x2x1=24 
Y T=T7x6x5x4x3x2x1= 5040 
Y 1!=1 


Nota: en general se está de acuerdo en que 0! = 1. Puede que parezca curioso que no 
multiplicar ningún número dé 1, pero ayuda a simplificar muchas ecuaciones. 


Así que si quieres elegir todas las bolas de billar las permutaciones serían: 
16! = 20,922,789,888,000 


Pero si sólo quieres elegir 3, tienes que dejar de multiplicar después de 14. ¿Cómo lo 
escribimos? Hay un buen truco... dividimos entre 13!... 
16 x 15 x 14 x 13x12.. 
13 x 12... 


¿Lo ves? 16! /13!=16x15 x 14 


(n—r)! 
ellas (No se puede repetir, el orden importa) 


= 16 x 15 x 14 = 3360 





La fórmula se escribe: donde n es el número de cosas que puedes elegir, y eliges r de 


Notación 
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En lugar de escribir toda la fórmula, la gente usa otras notaciones como: 


1 
Pla, r) > "Pp. = a Ez FE. 


(n — e)! 
2.4. Probabilidad de un evento 


Algunas situaciones de probabilidad implican más de un evento. Cuando los eventos no se 
afectan entre sí, se les conoce como eventos independientes. Los eventos independientes 
pueden incluir la repetición de una acción como lanzar un dado más de una vez, o usar dos 
elementos aleatorios diferentes, como lanzar una moneda y girar una ruleta. Muchas otras 
situaciones también pueden incluir eventos independientes. Para calcular correctamente las 
probabilidades, necesitamos saber si un evento influye en el resultado de otros eventos. 


2.4.1. Cálculo o medición de la Probabilidad 


La probabilidad mide la mayor o menor posibilidad de que se dé un determinado resultado 
(suceso o evento) cuando se realiza un experimento aleatorio. 


Para calcular la probabilidad de un evento se toma en cuenta todos los casos posibles de 
ocurrencia del mismo; es decir, de cuántas formas puede ocurrir determinada situación. 


Los casos favorables de ocurrencia de un evento serán los que cumplan con la condición que 
estamos buscando. 


La probabilidad toma valores entre O y 1 (o expresados en tanto por ciento, entre 0% y 
100%): 


El valor cero corresponde al suceso imposible; ejemplo: lanzamos un dado al aire y la 
probabilidad de que salga el número ”/ es cero. 


El valor uno corresponde al suceso seguro, ejemplo: lanzamos un dado al aire y la 
probabilidad de que salga cualquier número del l al 6 es igual a uno (100%). 


El resto de sucesos tendrá probabilidades entre cero y uno: que será tanto mayor cuanto más 
probable sea que dicho suceso tenga lugar. 


Métodos de medición de Probabilidad 


Uno de los métodos más utilizados es aplicando la Regla de Laplace: define la probabilidad 
de un suceso como el cociente entre casos favorables y casos posibles. 


casos favorables (f) 
casos posibles [n) 


[suceso] 


Ejemplos: 


a) Probabilidad de que al lanzar un dado salga el número 2: el caso favorable (f) es tan sólo 
uno (que salga el dos), mientras que los casos posibles (n) son seis (puede salir cualquier 
número del uno al seis). 


Por lo tanto: 


P '-14_0166 


[suceso] n 6 


(o lo que es lo mismo, 16,6%) 
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b) Probabilidad de que al lanzar un dado salga un número par: en este caso los casos 
favorables (f) son tres (que salga el dos, el cuatro o el seis), mientras que los casos posibles (n) 
siguen siendo seis. 


Por lo tanto: 


fo 3 1 


P A 
6032 


suceso] — a 
n (o lo que es lo mismo, 50%) 


c) Probabilidad de que al lanzar un dado salga un número menor que 3: en este caso tenemos 
cuatro casos favorables (f) (que salga el uno, el dos, el tres o el cuatro), frente a los seis casos 
posibles. 


Por lo tanto: 


tf dr 2 
—-=-—=>—=0656 
n 6 3 


[suceso] E 
(o lo que es lo mismo, 66,6%) 


d) Probabilidad de ganarse el premio mayor de una lotería en la que juegan 100.000 


númerosnos: tan sólo un caso favorable (f), el número que jugamos, frente a los 100.000 casos 
posibles (n). 


Por lo tanto: 


1 


P = ————=0,00001 
suceso] 400.000” 


(o lo que es lo mismo, 0,001%) 


d) Probabilidad al lanzar una moneda, con un águila en una cara y un sol en la otra. Hay dos 
casos posibles (n) de ocurrencia (o cae águila o cae sol) y sólo un caso favorable (f) de que 
pueda caer águila (pues sólo hay un águila en la moneda). 


Por lo tanto: 


ita 
[aguila ] 
3 n 2 (o, lo que es lo mismo, 50 %) 


Existe una probabilidad del 350% de obtener un águila al tirar una moneda. 


e) Probabilidad de elegir tal o cual fruta. S1 en una canasta hay 20 peras y 10 manzanas. ¿Qué 
fruta es más probable que saque al azar de la canasta? 


Para este ejemplo tenemos que 30 es el total de frutas en la canasta; es decir los casos posibles 
(n). Para calcular la probabilidad de sacar una manzana los casos favorables (f) son 10 puesto 
que existen sólo 10 manzanas. 


Por lo tanto: 


f 10 1 
P =-==-=0,333 
[manzana] n 30 3 , 


f 20 2 
a NO 
Pl. n 30 3 


(o, lo que es lo mismo, 33,3 %) 


(o, lo que es lo mismo, 66,7 %) 
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Fíjate bien que 33,3% + 66,7% es igual al 100% porque siempre que saquemos algo de la 
canasta es seguro que será una fruta. 


2.4.2. Condiciones importantes 


Para poder aplicar la Regla de Laplace el experimento aleatorio tiene que cumplir dos 
requisitos: 


a) El número de resultados posibles (sucesos o eventos) tiene que ser finito. Si hubiera 
infinitos resultados, al aplicar la regla "casos favorables dividido por casos posibles" el cociente 
siempre sería cero. 


b) Todos los sucesos o eventos tienen que tener la misma probabilidad. Si al lanzar un dado, 
algunas caras tuvieran mayor probabilidad de salir que otras, no podríamos aplicar esta regla. 


A la regla de Laplace también se le denomina "probabilidad a priori”, ya que para aplicarla 
hay que conocer antes de realizar el experimento cuales son los posibles resultados y saber que 
todos tienen las mismas probabilidades. 


Cuando se realiza un experimento aleatorio un número muy elevado de veces, las 
probabilidades de los diversos posibles sucesos empiezan a converger hacia valores 
determinados, que son sus respectivas probabilidades. 


Ejemplo: 


s1 lanzo una vez una moneda al aire y sale "cara", quiere decir que el suceso "cara" ha 
aparecido el 100% de las veces y el suceso "cruz" el 0%. 


S1 lanzo diez veces la moneda al aire, es posible que el suceso "cara" salga 7 veces y el 
suceso "cruz" los 3 restantes. En este caso, la probabilidad del suceso "cara" ya no sería del 
100%, sino que se habría reducido al 70%. 


S1 repito este experimento un número elevado de veces, lo normal es que las probabilidades 
de los sucesos "cara" y “cruz” se vayan aproximando al 50% cada una. Este 50% será la 
probabilidad de estos sucesos según el modelo frecuentista. 


2.5. Reglas aditivas 


A menudo resulta más sencillo calcular la probabilidad de algún evento a partir del 
conocimiento de las probabilidades de otros eventos. Esto puede ser cierto si el evento en 
cuestión se puede representar como la unión de otros dos eventos o como el 
complemento de algún evento. Para simplificar cálculos se crean reglas como la regla aditiva, 
se aplica a uniones de eventos. 


SI A y B son dos eventos, entonces 
P(A U B) = P(A) + P(B) -P(A N B) 
Se clasifican en: 


2.5.1. Eventos no Mutuamente Excluyentes 


Dos o más eventos son no excluyentes o conjuntos, cuando es posible que ocurran ambos. 
Esto no indica que necesariamente deban ocurrir estos eventos en forma simultánea. 


Ejemplo: Si consideramos en un juego de domino sacar al menos un blanco y un seis, estos 
eventos son no excluyentes porque puede ocurrir que salga el seis blanco. 


SÓ 


2.5.2. Eventos Mutuamente Excluyentes 


Dos o más eventos son mutuamente excluyentes o disjuntos, si no pueden 
ocurrir simultáneamente. Es decir, la ocurrencia de un evento impide automáticamente la 
ocurrencia del otro evento (o eventos). 


Ejemplo: Al lanzar una moneda solo puede ocurrir que salga cara o sello, pero no los dos a 
la vez, esto quiere decir que estos eventos son excluyentes. 


2.5.3. Eventos Complementarios 


Los eventos complementarios son dos resultados de un evento, siendo éstos los dos únicos 
resultados posibles. 


Ejemplo: Es como lanzar una moneda y que salga cara o cruz. Claro, no hay más opciones, 
así que estos eventos son complementarios. 


S1 A y B son dos eventos, entonces P(A U B) = P(A) + P(B) - P(A N B). 
Ejemplos: 


La probabilidad de que Paula apruebe Estadística es 2/3 y la probabilidad de que apruebe 
Ecuaciones Diferenciales es 4/9. S1 la probabilidad de aprobar ambos cursos es 1/4. ¿Cuál es la 
probabilidad de que Paula apruebe al menos uno de estos cursos? Si E es el evento aprobar 
Estadística y D el evento aprobar Ecuaciones Diferenciales, entonces 

PIEUD)=PE)+ PD) -P(END)= Ai p C0 
ey 0 ad UT SE: 

¿Cuál es la probabilidad de obtener un total de siete u once cuando se lanza un par de dados? 
Sea A el evento de que ocurre siete y B el evento de que salga once. Como todos los puntos 
muestrales son igualmente probables, P(A)=1/6 y P(B)=1/18. Los eventos A y B son 
mutuamente excluyentes, pues un total de 7 y 11 no pueden ocurrir en el mismo lanzamiento. 

P(AUB) = P(A) + P(B) - + e 

Si las probabilidades de que una persona que compra un automóvil nuevo elija el color verde, 
blanco, rojo o azul son, respectivamente, 0.09, 0.15, 0.21 y 0.23. ¿Cuál es la probabilidad de 
que un comprador dado adquiera un automóvil nuevo que tenga uno de esos colores? Sean V, 
B,R y A los eventos de que un comprador seleccione, respectivamente, un automóvil verde, 
blanco, rojo o azul. Como estos eventos son mutuamente excluyentes 


P(YUBURUA) = P(V) + P(B) + PL) + P(4) 
= 0.09 + 0.15 + 0.21 + 0.23 
= 0.68 


A veces es más difícil calcular la probabilidad de que ocurra un evento que calcular la 
probabilidad de que el evento no ocurra. Si este es el caso para algún evento A, simplemente 
calculamos primero P(A”) y después, usamos lo siguiente, para calcular P(A) por sustracción. 


e SIA y A? son eventos complementarios, entonces 


P(A) + P(A”) =1 
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S1 las probabilidades de que un mecánico automotriz de servicio a tres, cuatro, cinco, seis, 
siete, ocho o más autos en un día de trabajo son 0.12, 0.19, 0.28, 0.24, 0.10 y 0.07, 
respectivamente. ¿Cuál es la probabilidad de que de servicio al menos a cinco autos el día 
siguiente de trabajo? Sea S el evento de que al menos cinco autos reciban servicio. Luego 
P(S)=1-P(S”) donde S” es el evento de que menos de cinco autos reciban servicio. Como 
P(S”)-0.12+0.19=0.31, entonces P(S)=1-0.31=0.69. 


2.6. Probabilidad condicional 


Probabilidad condicional es la probabilidad de que ocurra un evento A, sabiendo que 
también sucede otro evento B. La probabilidad condicional se escribe P(A|B) o P(A/B), y se lee 
«la probabilidad de A dado B». 


No tiene por qué haber una relación causal o temporal entre A y B. A puede preceder en el 
tiempo a B, sucederlo o pueden ocurrir simultáneamente. Á puede causar B, viceversa o pueden 
no tener relación causal. Las relaciones causales o temporales son nociones que no pertenecen 
al ámbito de la probabilidad. Pueden desempeñar un papel o no, dependiendo de la 
interpretación que se le dé a los eventos. 


Un ejemplo clásico es el lanzamiento de una moneda para luego lanzar un dado. ¿Cuál es la 
probabilidad que en el dado salga un 6 dado que ya haya salido una cara en la moneda? Esta 
probabilidad se denota de esta manera: P(6|C). 


El condicionamiento de probabilidades puede lograrse aplicando el teorema de Bayes. 


Como la probabilidad está ligada a nuestra ignorancia sobre los resultados de la experiencia, 
el hecho de que ocurra un suceso, puede cambiar la probabilidad de los demás. El proceso de 
realizar la historia clínica, explorar y realizar pruebas complementarias ilustra este principio. 


La probabilidad de que ocurra el suceso Á si ha ocurrido el suceso B se denomina 
probabilidad condicionada y se define 
prAriB) o. 
pra E) = == 1 pps 0 
p(B) 


Esta definición es consistente, es decir cumple los axiomas de probabilidad. 


Cuando ocurre un suceso cambia el espacio muestral, por eso cambia la probabilidad. A 
veces es más fácil calcular la probabilidad condicionada teniendo en cuenta este cambio de 


Ejemplo : Supongamos que nuestro EM es una muestra de adultos de que cumplen con los 
requisitos para obtener un grado en la Facultad de Ingeniería. Debemos clasificarlos de acuerdo 
con su género y situación laboral. 


PT empleado, | Desempleado | Total 
40 | 


Hombre 460 500 
Mujer 140 260 400 
Total 600 300 300 


Uno de estos individuos se seleccionará al azar para que realice un viaje a través del país 
para promover las ventajas de establecer industrias nuevas en Huancayo. Nos interesan los 
siguientes eventos: 


3z 


H: se elige un hombre, E: el seleccionado tiene empleo. 


Al utilizar el EM reducido E, tenemos 


160 23 
P(H|E' = == 
| ) GU) HL) 


Para verificar este resultado, notar que 


600 2 , 160 23 
| y PEN =—=“Í 
i A) 15 


P(E) = = 
2) 000 73 


23/45 233 
P(HE) = SP - 2 


2/13 mM) 





2.7. Reglas multiplicativas 
Si en un experimento pueden ocurrir los eventos A y B, entonces 
P(A N B) = P(A)JP(B]A), dado que P(A)>0. 


Así la probabilidad de que ocurran A y B es igual a la probabilidad de que ocurra Á 
multiplicada por la probabilidad condicional de que ocurra B, dado que ocurre A. 


Como los eventos A NB y B N a son equivalentes, del teorema anterior se sigue que también 
podemos escribir 


P(A N B)=P(B N A) = POB)P(AIB). 
En otras palabras, no importa qué evento se considere como A y cuál como B. 


Ejemplo: Suponga que tenemos una caja de fusibles que contiene 20 unidades, de las cuales 
5 están defectuosas. Si se seleccionan 2 fusibles al azar y se retiran de la caja, uno después del 
otro, sin reemplazar el primero, ¿cuál es la probabilidad de que ambos fusibles estén 
defectuosos? 


Sean A el evento de que el primer fusible esté defectuoso y B ele vento de que el segundo esté 
defectuoso; entonces, interpretamos A A B como el evento de que ocurra A, y entonces B ocurre 
después de que haya ocurrido A. La probabilidad de separar primero un fusible defectuoso es 
1/4; entonces, la probabilidad de separar un segundo fusible defectuoso de los restantes 4 es 
4/19. Por lo tanto 


P(A N B) = (1/4)(4/19) = 1/19. 
2.7.1. Eventos independientes 
Dos eventos A y B son independientes si y sólo si 
P(A NB) = PIAP(B). 


Por lo tanto, para obtener la probabilidad de que ocurran dos eventos independientes, 
simplemente calculamos el producto de sus probabilidades individuales. 


2.8. Regla de Bayes 


Si los sucesos A; son una partición y B un suceso tal que p(B) +0 


yO 


p(4 5) = POBLANDCA) 


A PÚBÍAN PLA) 


¡Al 


para ¿=1,..9 


Aplicaciones 


Diagnóstico médico (en general clasificaciones no biunívocas): El diagnóstico consiste en 
establecer la enfermedad de un paciente, a partir de una serie de síntomas. Pero los síntomas y 
las enfermedades no están ligados de un modo biunívoco. 


Llamemos Ei al conjunto de enfermedades El: tuberculosis pulmonar; E2 :cáncer de 
pulmón; E3: bronquitis obstructiva; etc. y S1 a los síntomas y síndromes asociados con las 
mismas. Sl: tos; S2: estado febril; S3: hemotisis; etc. 


La información accesible en los libros de patología, o en un archivo de historias clínicas es 
del tipo. 


Para El: algunos (digamos el 20%) tienen hemotisis; muchos (80%) tienen tos; etc. y lo 
mismo para las demás enfermedades. 


En términos de probabilidad condicionada, esta información es p(S3|E1) = 0,2; p(S1|El) = 
0,8 etc. 


para diagnosticar la tuberculosis se ha de evaluar, para los síntomas que presenta el paciente 
p(E1|Si) para lo que se puede usar el teorema de Bayes si las enfermedades forman una partición 
(son mutuamente excluyentes y se consideran todas las enfermedades compatibles con el 
síntoma) y se conocen sus prevalencias. 


Nótese que un mismo conjunto de síntomas podría dar lugar a un diagnóstico diferente en 
poblaciones en las que las prevalencias fueran diferentes. 


Pruebas diagnósticas: Supóngase una prueba diagnóstica, por ejemplo nivel de glucosa en 
sangre, en ayunas, para diagnosticar la diabetes. Se considera que la prueba es positiva si se 
encuentra un nivel por encima de un cierto valor, digamos 120 mg/l. 


Para evaluar la prueba, (habrá que hacerlo para distintos valores de corte) se somete a la 
misma a una serie de individuos diabéticos diagnosticados por otro procedimiento (el patrón de 
oro O "gold standar") y a una serie de individuos no diabéticos. Los resultados se pueden 
representar en una tabla de doble entrada. 


Patrón de oro 


NE E 
- a b r 
Prueba 
+ c d s 
t U 


S1 la prueba fuera perfecta b=c=0, desgraciadamente nunca ocurre. Se denomina coeficiente 
falso-positivo (CFP) al cociente c/t, y es una estimación de la probabilidad condicionada 
p(+|[NBE), se denomina coeficiente falso-negativo (CEN) al cociente b/u, y es una estimación de 
la probabilidad condicionada p(-|E). Estos dos coeficientes cuantifican los dos errores que la 
prueba puede cometer y caracterizan a la misma. Simétricamente, los coeficientes que 
cuantifican los aciertos son la sensibilidad, p(+|E), y la especificidad p(-[NE). 
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Cuando la prueba se usa con fines diagnósticos (o de "screening”) interesa calcular p(E|+) 
y/o p(NE|-). 


Como E y NE son una partición, usando el Teorema de Bayes 


PO EJPLE) 


pl ME) pLAIA) 
APA ME|-) > | 
PAEIA(E) + pt] NE) p(NE) y 


El+) = e 
p(E|+) PpDp(E) + p(-|NE)p(NE) 


Nótese que ambas dependen de la prevalencia de la enfermedad: una prueba diagnóstica que 
funciona muy bien en la clínica Mayo, puede ser inútil en el Hospital Ramón y Cajal. 

Ejemplo 9: 
una prueba diagnóstica para la diabetes tiene un CFP de 4% y un CEN del 5%. Si la prevalencia 
de la diabetes en la población donde se usa es del 7% ¿cuál es la probabilidad de que sea 


diabético un individuo en el que la prueba dé positiva? y ¿de que no lo sea uno en el que dé 
negativo? 


p(+|NE) = 0,04 > pG-|NE) = 0,96 
p(-JE) = 0,05 > p(+]E) = 0,95 
p(E) = 0,07 > p(NE) = 0,93 


0.95x 0.07 
AE - —_ 0,641 
095x0.07+004x0,92 
y 
pe) = — P900S 0996 
0,.05x007+0,96x0,93 


Pruebas en serie: Cuando se aplican pruebas en serie, para cada prueba p(E) y p(NB), serán 
la p(E|+) y p(NE[+) de la prueba anterior (si dio positiva) o p(E|-) y p(NE|-) si dio negativa. 


2.9.  Ejercidos de Repaso 
Hallar la probabilidad de que al lanzar al aire dos monedas, salgan: 


1. Dos caras. 





Son sucesos independientes 


2. Dos cruces. 


Son sucesos independientes 
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3. Una cara y una cruz. 


La probabilidad de sacar una cara y una cruz sería la probabilidad de cx o de xc: 


P(c NA x) U P(x A c) 





p(len 1x) = > > 


4. Hallar la probabilidad de que al levantar unas fichas de dominó se obtenga un número 
de puntos mayor que 9 o que sea múltiplo de 4. 


A (> 9) =((4,6),(5,5) ,(5,6),(6,6)) 
B(4)=((0,4),(1,3),(2,2),(2,6)-(3,5),(4,4),(6,6)) 
Vemos que son sucesos compatibles porque (6,6) es común, portanto ANBX0 


4. 7 1 10 5 
AB) 2 A 
PLAUB)= 33 *28 28728 14 


5. Se lanzan dos dados al aire y se anota la suma de los puntos obtenidos. Se pide: 


La probabilidad de que salga el 7 


La probabilidad de que el número obtenido sea par 


18 1 


id! Sr 
La probabilidad de que el número obtenido sea múltiplo de tres 


1 1 2 2 3 3 4 4 J J O 6 


2 o 1 4 3 5 2 5 1 4 3 6 
- 12 1 
p(8)=35=3 


6. Se extraen cinco cartas de una baraja de 52. Hallar la probabilidad de extraer: 








4 ases 
les 1 
4 ases)==% Y - 
pl 22 54145 
4 ases y un rey 
TE te 1 


(4 ases y un rey )= 2 >= 
pl id y) CE, 649740 


3 cincos y 2 sotas 


7 -ES 1 


(3 cincos y dos sotas)= = 
pl il ) 05 108290 





Un 9, 10, sota, caballo y rey en cualquier orden 


cr E. 


escalera) = = 
A E. 162435 





S6 


3 de un palo cualquiera y 2 de otro 


4-Cí3-3-Cí3_ 429 
pS y 2) 3 = 4165 





5 4165 
Al menos un as 
o Cia 35673 
niñdun 4s ) = -—— = 
píning )= 25 = 54145 
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3. VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD 


3.1. Concepto de variable aleatoria 


Una función que asocia un número real, perfectamente definido, a cada punto muestral. 
A veces las variables aleatorias (v.a.) están ya implícitas en los puntos muestrales. 


Ejemplo 1: Experiencia consistente en medir la presión sistólica de 100 individuos. Un punto 
muestral (resultado de un experimento) es ya un número (presión sistólica). La v.a. está 
implícita. 


Ejemplo : En el ejemplo de la mujer portadora de hemofilia. 
mujer portadora de hemofilia = ([sss, ssn, sns, san, nss, nsn, nns, nnn) 


Se podría definir una variable que asignara a cada punto muestral el número de orden en el 
espacio muestral. 


X:sss *l;ssn 7*2;sns 735... 
Pero otra posible v.a.: a cada punto muestral el número de s. X: sss 7? 3; ssn “>? 2; .... 
Los conjuntos pueden ser: 


Y discretos. número finito o infinito numerable de elementos. 
Y continuos: número infinito no numerable de elementos. 


Las v.a. definidas sobre espacios muestrales discretos se llaman v.a. discretas y las definidas 
sobre espacios muestrales continuos se llaman continuas. 


Una v.a. puede ser continua, aunque nosotros sólo podamos acceder a un subconjunto finito 
de valores. P.e. la presión arterial es una v.a. continua pero sólo podemos acceder a un conjunto 
finito de valores por la limitación de los aparatos de medida. 


En general, las medidas dan lugar a v.a. continuas y los conteos a v.a. discretas. 
Inducción de la probabilidad a variables aleatorias 


Las v.a permiten definir la probabilidad como una función numérica (de variable real) en 
lugar de como una función de conjunto como se había definido antes 


Ejemplo 3: Tiramos una moneda 3 veces. Representamos cara por C y Cruz por z. 
Tiramos una moneda 3 veces = [CCC, CCZ, CZC, ZCC, CZZ, ZCZ, ZZC, ZZZ ) 


La probabilidad de cada suceso elemental es 1/8. Por ejemplo p(ccc)=1/8, ya que la 
probabilidad de sacar cara en una tirada es 1/2 según la definición clásica y las tiradas son 
independientes. 
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Definimos la v.a. X: número de caras, que puede tomar los valores (0, 1, 2, 3]. Se buscan 
todos los puntos muestrales que dan lugar a cada valor de la variable y a ese valor se le asigna 
la probabilidad del suceso correspondiente. 


X Sucesos 
PX 


(0) zzz) 1/8 
1 10z2; 202, 276) 3/8 
2 LOCEy 026, 20CH 3/8 
3 [ ecc? 1/8 


A esta función se le denomina función densidad de probabilidad (fdp), que desgraciadamente 
"funciona" de distinta manera en las variables discreta que en las continuas. En el caso de las 
variables discretas, como en el ejemplo, es una función que para cada valor de la variable da su 
probabilidad. 


Ejemplo : Supongamos la variable tipo histológico de un tumor, con los valores 1, 2, 3, 4. S1 

la fdp fuera 
x Tx) 

1 0,22 
2 0,27 
3 0,30 
4 0,21 
significaría que la probabilidad del tipo 2 es 0,27, etc. 


Para variables continuas la probabilidad de que una variable tome cualquier valor concreto 
es 0, por lo tanto la fdp sólo permite calcular la probabilidad para un intervalo del tipo (a<X<b), 
mediante el área bajo la curva de la fdp. 





Parámetros característicos de una fdp 


Valor esperado o esperanza matemática o media 
ió caso dis. 
= 


xt de casocont. 


1, =Elx]= 


S8 


s1 X es una v.a. cualquier función de ella, h(x), es también una v.a., en consecuencia, también 
se define este parámetro para una función de v.a. 


> hi) cd 
li SEMI > 
Pf him d ec 
Ejemplo: Se tira un dado. Se define como v.a. el número que sale ¿Cuál es su media? 


La variable X puede tomar los valores 1, 2, ..., 6 y para todos ellos f(x) = 1/6. En 
consecuencia, la media es 


W 
a, = ata) 1 42 A +6 = ENS 


A=1 
Obsérvese que es un número que la v.a. no puede alcanzar. ¿Qué significa? No mucho. 


Se define ahora una función sobre X: el premio: si sale 1 Ó 2 se gana 100 ptas, si sale 3 se 
gana 500 y si sale 4,56 6 no se gana nada 


OO -=20mNy— 
o 


¿Cuál es el valor medio de esta función? 


ú 
= Y MOL =100x—+100 x—+S00x =116,6 


A=1 


¿Qué significa? es el valor medio a la larga: si se juega un número grande de veces la ganancia 
final es como si en cada jugada se hubiera ganado 116,6 pts. Si la apuesta costara menos de eso 
el juego sería ventajoso para el jugador (así se enriqueció Voltaire), si costara más, para la 
banca. (llamar a ésto honestidad del juego le costó el puesto de ministro a Laplace). 


Varlanza: 


Se define como: 
0 =E[ Xx) 
aunque para el cálculo se suele usar esta otra fórmula equivalente: 
07 =E|X* — iy 
¿Qué mide la varianza? Mide la dispersión de la variable alrededor de la media. 


3.2.Distribuciones discretas de probabilidad 


Una distribución de probabilidad es una representación de todos los resultados posibles de 
algún experimento y de la probabilidad relacionada con cada uno. 


Una distribución de probabilidad es discreta cuando los resultados posibles del experimento 
son obtenidos de variables aleatorias discretas, es decir, de variables que sólo puede tomar 
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ciertos valores, con frecuencia números enteros, y que resultan principalmente del proceso de 
conteo. 


Ejemplos de variables aleatorias discretas son: 


Y” Número de caras al lanzar una moneda 

Y” El resultado del lanzamiento de un dado 
Y” Número de hijos de una familia 

Y” Número de estudiantes de una universidad 


Ejemplo ilustrativo: Sea el experimento aleatorio de lanzar 2 monedas al aire. Determinar la 
distribución de probabilidades del número de caras. 


El espacio muestral es S = (CC, CS, SC, SS] 


La probabilidad de cada punto muestral es de 1/4, es decir, P(CC) = P(CS) = P(SC) = P(SS) 
= 1/4 


La distribución de probabilidades del número de caras se presenta en el siguiente diagrama: 


GRÁFICO DE DISTRIBUCIONES DE 
PROBABILIDAD DE LANZAR 2 MONEDAS ALAIRE 


1/2 
1/12 73 
1/4 
1/4 + 4 
0 pa 
0 
1 
2 


N* de Caras 


Probabilidad 





Interpretación: 


Y” La probabilidad de obtener O caras al lanzar 2 monedas al aire es de 1/4 = 0,25 = 25% 
Y” La probabilidad de obtener una cara al lanzar 2 monedas al aire es de 2/4 = 0,5 = 50% 
Y” La probabilidad de obtener 2 caras al lanzar 2 monedas al aire es de 1/4 = 0,25 = 25% 


3.2.1. La media y la varianza de las distribuciones discretas 
A. Media 


La media llamada también valor esperado, esperanza matemática o simplemente esperanza 
de una distribución de probabilidad discreta es la media aritmética ponderada de todos los 
resultados posibles en los cuales los pesos son las probabilidades respectivas de tales resultados. 
Se halla multiplicando cada resultado posible por su probabilidad y sumando los resultados. Se 


expresa mediante la siguiente fórmula: 
u=E(%) = X(x, P(x,) 
Donde: 


y 4= EU) Media, Valor Esperado, Esperanza Matemática o simplemente 
Esperanza 


Y” *i= Posible resultado 
y Plxi) Probabilidad del posible resultado 
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B. Varianza 


La varianza es el promedio de las desviaciones al cuadrado con respecto a la media. La 
varianza mide la dispersión de los resultados alrededor de la media y se halla calculando las 
diferencias entre cada uno de los resultados y su media, luego tales diferencias se elevan al 
cuadrado y se multiplican por sus respectivas probabilidades, y finalmente se suman los 
resultados. Se expresa mediante la siguiente fórmula: 


a? = Elx, = uy? - P(x¿)] 


Nota: La varianza se expresa en unidades al cuadrado, por lo que es necesario calcular la 
desviación estándar que se expresa en las mismas unidades que la variable aleatoria y que por 
lo tanto tiene una interpretación más lógica de la dispersión de los resultados alrededor de la 


= Va? 


. . .)»- yd eS O 
media. La desviación estándar se calcula así: 


C. Características: 


1. Es generada por una variable discreta (x). 


Y” x> Variable que solo toma valores enteros 
Y x>0,1,2,3,4,5,6,7, 8,... etc,etc. 


2. p(x1)20 Las probabilidades asociadas a cada uno de los valores que toma x deben ser 
mayores o iguales a cero. 


3.2p(x1) = 1 La sumatoria de las probabilidades asociadas a cada uno de los valores que 
toma x debe ser igual a 1. 


3.3.Distribuciones continuas de probabilidad 
3.3.1. Características: 


1. Es generada por una variable continua (x). 


Y x> Esuna variable que puede tomar tanto valores enteros como fraccionarios. 
Y x> 1.0,3.7, 4.0, 4.6, 7.9, 8.0, 8.3, 11.5, .....,o0 


2. f(x)20 Las probabilidades asociadas a cada uno de los valores que toma x deben ser 
mayores o iguales a cero. Dicho de otra forma, la función de densidad de probabilidad 
deberá tomar solo valores mayores o iguales a cero. La función de densidad de 
probabilidad sólo puede estar definida en los cuadrantes l y II. 


| +íxddx=1 
y a La sumatoria de las probabilidades asociadas a cada uno de los valores 
que toma x debe ser igual a 1. El área definida bajo la función de densidad de 
probabilidad deberá ser de 1. 


3.3.2. Calculo de media y desviación estándar para una distribución continua 
Y” Media o valor esperado de x.- Para calcular la media de una distribución de 
probabilidad continua se utiliza la siguiente fórmula: 


u= | xf(3)03 


Donde: 
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u = E(x) = media o valor esperado de la distribución 
x= variable aleatoria continua 


f(x) = función de densidad de la distribución de probabilidad 


Y” Desviación estándar. - La fórmula para determinar la desviación estándar de una 
distribución continua es; 


o [au s(xjas 


luego: 
o= ua? 


Ejemplo: 
Para la siguiente función, 


H(x)= 8 


cuando 0<x<3, f(x) =0 para cualquier otro valor 


a) Diga si esta función nos define una distribución de probabilidad. 


b) Si la función define una distribución de probabilidad, entonces, determine su media y 
desviación estándar. 


c) Determine la probabilidad de que 1< x < 2. 
Solución: 


a) Para verificar que la función nos define una distribución de probabilidad, es necesario 
que cumpla con las características que se habían mencionado. 


Y Xx > síes una variable continua porque puede tomar cualquier valor entre O y 3 

Y f(x)> 0, lo que se comprueba si damos diferentes valores a x para ver que valores 
toma f(x), dándonos cuenta de que efectivamente f(x) solo toma valores mayores o 
iguales a cero. 


O 00 


Y” Para comprobar que la sumatoria de las probabilidades que toma cada valor de x 
es de 1, se integra la función de O a 3 como se muestra a continuación: 
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ai 





A A 
A 





4A= dx=|—x d 
| scarar= ES 7 
A= área bajo la lost 
2 
Ls 
Con las operaciones anteriores comprobamos que la función 2 sí nos define una 
distribución de probabilidad continua. 


b) Cálculo de media y desviación estándar. 


4 
3 


Lo 3 3 
u= [x= 10aJax=x( Jgx dax= [a dE |= 
M 0 


— 


1] 4 4 1 E] 
35 / 35 / 36 


o 


2 A E 
= [0x3 f0x)4x=f (22.25% Gx X= 
0 


—p 


4 E 2 
30 02 2 3 
=Síx SO AAA E 
o DO o 


5 
A 


45 





3 5 + 3 
4,5.0625x E, (3) 4 3.0625(3) Ñ 
27 AS 2 7 y 


224281 ,13608% 4 10,125+5.0625=0.3375 
3 


7 
e=x3e =-/0,3375 =0,5809 


Las barras nos indican la evaluación de la integral entre O y 3. 


3 3 3 


a 
HIExX<2 == [20 [ade Ec Mis? 
Cc) ¡> 9 


La barra nos indica la evaluación de la integral de l a 2. 


Con las operaciones anteriores nos damos cuenta que para evaluar probabilidades para 
variables de tipo continuo, es necesario evaluar la función de densidad de probabilidad en el 
rango de valores que se desea; que vendría siendo el área que se encuentra entre f(x) y el eje de 
las x y entre el rango de valores definidos por la variable x. 
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3.4.Distribuciones empíricas 


Los percentiles empíricos se calculan a partir de la función de distribución empírica definida 
por los valores de la serie con la que se trabaja ordenada desde el valor menor al mayor, y 
asignando a cada valor ordenado su probabilidad calculada según la expresión: 


Prob (X<x1) =1N +1 ). 


Donde ”1” representa el número de orden que ocupa el valor “x” en la serie de datos ordenada 
en orden creciente y “N” el número total de datos. La probabilidad correspondiente al 20, 40, 
50, 60 ó 80 por ciento se obtienen por interpolación lineal, considerando las probabilidades 
asignadas a cada dato ordenado. 


Ejercicio. Se pide calcular los valores de los percentiles 20 y 40 mediante la función de 
distribución empírica, de la siguiente serie de valores: 


102.2 96.3 377.7 119.9 
221.1 32 153.8 199 
261.9 58.7 160 209.8 
270 60.4 171.9 142 
138.3 83.5 172.1 148.5 
13.5 289.4 183.6 269.4 
18.1 299.9 197.9 
118 110.5 300.7 
Solución. 


Se deben ordenar los datos de precipitación en orden creciente, y asignar a cada valor de 
precipitación su probabilidad empírica en función del orden de situación del valor y del número 
de datos. Así para los dos primeros valores y para los dos últimos tendremos: 


N* orden Precipitación Probabilidad 
1 (primero) 13.5 mm Prob (X<13.5) =1/(N +1) = 1/(60+1) = 0.03226 (3.226 %) 
2 (segundo) 18.1 mm Prob (X<18.1) =1((N +1) = 2/(30+1) = 0.06452 (6.452 %) 


29 (vigésimo nono) 300,7 mm Prob (X<300,7) =1/(N +1) = 29/(30+1) = 0.9354 (93,55 %) 
30 (trigésimo) 377,7 mm Prob (X<377,7) =1/(N +1) = 30/(30+1) = 0.9677 (96,77 %) 


Los valores de precipitación ordenados desde el menor al mayor para los treinta años de la 
serie y los valores de probabilidad asignados son: 


N*orden  Prob % Prec (mm) 
1 3.226 13.5 
Z 6.452 18.1 


30 


9.677 
12.9 
16.13 
19.35 
LUIS 
25.81 
29.03 
32.26 
35.48 
38.71 
41.94 
45.16 
48.39 
51.61 
54.84 
58.06 
61.29 
64.52 
67.74 
70.97 
74.19 
17,42 
80.65 
83.87 
87.1 
90.32 
IS 
96.77 


32 
58.7 
60.4 
83.5 
96.3 
102.2 
110.5 
118 
119.9 
138.3 
142 
148.5 
153.8 
160 
171.9 
172.1 
183.6 
197.9 
199 
209.8 
221.1 
261.9 
269.4 
270 
289.4 
299.9 
300.7 
377.7 
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El percentil 20 se obtiene por interpolación sabiendo que será un volumen de precipitación 
entre el valor que está en la posición sexta (19,35 %) y el valor que está en la posición séptima 


(22,58 %) 


P19.35 83.5 


P20 86.07 


P22,58 96.3 
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El percentil 40 se obtiene por interpolación sabiendo que será un volumen de precipitación 
entre el valor que está en la posición duodécima (38,71 9%) y el valor que está en la posición 
decimotercera (41,94 %) 


P38.71 138.3 P40 139.78 P41.94 142 
3.5.Distribuciones de probabilidad conjunta 


En probabilidad, dados dos eventos aleatorios X y Y, la distribución conjunta de X y Y es la 
distribución de probabilidad de la intersección de eventos de X y Y, esto es, de los eventos X e 
Y ocurriendo de forma simultánea. En el caso de solo dos variables aleatorias se denomina una 
distribución bivariada, pero el concepto se generaliza a cualquier número de eventos o variables 
aleatorias. 


Caso discreto 


Para variables aleatorias discretas, la función de probabilidad conjunta está dada por: 


PX =xYyY=y=P(Y =y|X=3)-P(X=xux) 


=P(X=x2x|Y=yw-P(Y =y. 


Dadas esas probabilidades, se tiene que: 


E y 


Caso continuo 


Para las variables aleatorias continuas la función de densidad de probabilidad conjunta puede 
ser escrita como fX, Y(x, y) teniendo: 


Fxrlz.y) <= frixlulz)fxlz) = far (2 4) fy (y) 


Donde fY|X(y|x) y fX|Y(x|y) dan la Probabilidad condicionada de Y dado X = x y de X dado 
Y = y respectivamente, y fX(x) y fY(y) dada la distribución marginal para X y Y 
respectivamente. 


De nuevo, dado que son distribuciones de probabilidad: 


] f txx20 dy du = 1. 
Ty 


4. ESPERANZA MATEMÁTICA 


4.1. Media de una variable aleatoria 
4.1.1. Variables aleatorias discretas 


Una variable aleatoria se dirá discreta si el conjunto de valores que toma es un conjunto 
numerable, es decir, que solo puede tomar unos valores concretos. Dicho conjunto lo 
denotaremos por: (x1, x2, x3,...., xk) 
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Toda variable aleatoria discreta tiene asociada una función de probabilidad, que a cada valor, 
le marca la probabilidad de que la variable tome dicho valor. Esta probabilidad viene a jugar 
el mismo papel que la frecuencia relativa en los temas de estadística. 


4.1.2. Parámetros de una variable aleatoria 


La ventaja de trabajar con variables aleatorias es que podemos hacer cálculos que adquieren 
signifcado sobre el comportamiento de la variable. En una variable aleatoria, podemos 
calcular todos los parámetros que habíamos visto en la estadística unidimensional: media, 
varianza moda, mediana, percentiles, desviaciones, etc, aunque nosotros vamos a centrarnos en 
las dos primeras, la media y la varianza, (bueno o la desviación típica que era la raíz de la 
varianza S1 recuerdas) 


MEDIA: La media de una variable aleatoria se lama ESPERANZA MATEMÁTICA, se 
representa por E(X) o por u y viene a darnos el "valor esperado"' de la variable al realizar 
el experimento aleatorio. La fórmula para calcularla es 


K 


E(X) pa XP, = XP, TX PT O TH 
1=1 


VARIANZA: El significado es el mismo que en la estadística. Aporta una medida sobre la 
dispersión de los valores de X. Para calcularla usamos una de las dos fórmulas, aunque es más 
aconsejable la segunda: 


19 E 
PARA = Es ep, VAR(X) = ap, - ¡0 


E] 1] 


Veamos un par de ejemplo: 


Calcula la media y la varianza de la variable del Ejemplo 





A 6p_ > 46 
ELA) = LAN 3, qa LL 2l =345 
É 6 É E E 6 6 
Lo que significa que el valor esperado en el lanzamiento de un dado es 3,5 
Par) =| testa las a e Esos == 
É E 6 6 6 6 b 


y si queremos calcular la desviación típica, haríamos la raíz cuadrada de ese resultado y 
obtendríamos, 1.708 


4.2. Varianza y covarianza 
3.5.1. La Varianza 
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Otra forma para asegurar que las diferencias entre la media y los puntos de un valor positivo, 
es elevándola al cuadrado. Al promedio de estas distancias al cuadrado se le conoce como 
varianza. 


Varianza (S? o 07): Es el resultado de la división de la sumatoria de las distancias existentes 
entre cada dato y su media aritmética elevadas al cuadrado, y el número total de datos. 


Distinguimos dos símbolos para identificar la varianza: S” para datos muestrales, y o” para 
datos poblacionales. Note que la fórmula para la varianza muestral presenta en su denominador 
al tamaño de la muestra menos uno, tendencia adoptada por los estadísticos para denotar una 
varianza más conservadora. 


Al igual que ocurre con la desviación media, podemos definir las fórmulas para datos agrupados 
en tablas tipo A y tipo B. Para las tablas tipo A tenemos: 


Una advertencia en el uso de esta medida, es que al elevar las distancias al cuadrado, 
automáticamente se elevan las unidades. Por ejemplo, si unidad trabajada en los datos es 
centímetros, la varianza da como resultados centímetros al cuadrado. 


Ejemplo: Varianza para datos no agrupados 


La siguiente muestra representa las edades de 25 personas sometidas a un análisis de preferencias 
para un estudio de mercado. 


25 19 21 35 44 
20 27 32 38 33 
18 30 19 29 33 
26 24 28 39 31 
31 18 14 30 27 


Determinar la varianza. 


Solución: 

PASO 1: Calcular la media aritmética. 

PASO 2: Calcular la varianza 

En este punto, la varianza es identificada por S?. 


La varianza equivale a 51,8567. Por elevar las unidades al cuadrado, carece de un significado 
contextual dentro del análisis descriptivo del caso. 


Ejemplo: Varianza para datos agrupados 
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Calcular la varianza a partir de la siguiente tabla de frecuencia (suponga que los datos son 
poblacionales). 


Ni Lm Ls f Mc 
1 [15 17) 2 16 
2 [17 19) 5 18 
3 [19 21) 13 20 
4 [21 23) 4 22 
S [23 25] 1 24 
Total 95 


Solución: 
PASO 1: Calcular la media aritmética. 
PASO 2: Calcular la varianza 
En este punto, la varianza es identificada por S?. 
Cálculo de la varianza en Excel 


Excel posee dos funciones propias para el cálculo de la media, diferenciando los datos 
muestrales de los datos poblacionales. 


VAR: Calcula la varianza de una muestra. 

Formato: VAR(númerol;número2;...) 

Categoría: Estadísticas 

VARP: Calcula la varianza de todos los datos de una población. 
Formato: VARP(númerol:;número2;...) 


Categoría: Estadísticas 


Mostremos su funcionamiento calculando la varianza en ambos casos a partir de los siguientes 
datos: 


138,2 195,8 124,5 101,7 137,1 130,3 
110,0 101,4 104,5 128,5 135,5 197,5 
159,6 140,7 103,2 134,3 191 180,6 
189,9 186,3 116,4 155,3 146,6 199,1 


188,4 113,8 121,9 135,7 142,6 125,6 
Los datos copiados en Excel desde la celda B2 deberían verse como sigue: 


Si los datos provienen de una muestra, emplearemos la función VAR, en cuyo denominador 
se tendría el valor 29 en vez de 30, equivalente al tamaño de la muestra. Activemos esta función 
en la celda B8. 


El resultado de la varianza muestral es de 1034,138051. 


En la celda B9 calculemos la varianza para datos poblacionales. 
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La función de la varianza VARP, divide la sumatoria de las distancias al cuadrado por los 
30 datos, dando como resultado un valor menor que con la función VAR (la varianza para la 
muestra es un valor más conservador). 


Para el cálculo de la varianza en datos agrupados en Excel, tomaremos la tabla de frecuencia 
dada en el ejemplo 3.2.2. 


Calculemos la media en la celda B10. 


En una columna adicional colocaremos las diferencias entre la marca de clase y la media 
elevadas al cuadrado multiplicadas por su frecuencia. 


Analicemos la fórmula empleada desde la celda C3. 


La celda B10 esta fija indicando la media aritmética. Aparece el operador a, la cual eleva al 
cuadrado lo que esta dentro del paréntesis. Esta distancia se multiplica por el número de veces 
que se repite (por su frecuencia). Al final calculamos su sumatoria. 


En la celda B11 calculamos la varianza. 
3.5.2. Covarianza 


La covarianza de una variable bidimensional es la media aritmética de los productos de las 
desviaciones de cada una de las variables respecto a sus medias respectivas. 


La covarianza se representa por Sxy O Gxy. 
Es 0 x)(y, o y) 
E 


ds 
A 
lr) 


y 


La covarianza indica el sentido de la correlación entre las variables 
S1 6xy > 0 la correlación es directa. 
S1 G6xy < 0 la correlación es inversa. 
La covarianza presenta como inconveniente, el hecho de que su valor depende de la 
escala elegida para los ejes. 


Es decir, la covarianza variará si expresamos la altura en metros o en centímetros. 


También variará si el dinero lo expresamos en euros o en dólares. 
Ejemplos 


Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes: 


Matemáticas Física 


2 1 
3 3 
4 2 
4 4 
5 4 
6 4 
6 6 
7 4 
7 6 
8 7 
10 9 
10 10 


Hallar la covarianza de la distribución. 


XI yi X1 + yl 
2 1 he 

SY 3 9 

4 2 8 

4 4 16 
5 4 20 
6 4 24 
6 6 36 
7 4 28 
7 6 42 
8 7 56 
10 9 90 
10 10 100 
72 60 431 


Después de tabular los datos hallamos las medias aritméticas: 


Los valores de dos variables X e Y se distribuyen según la tabla siguiente: 


Y/XO 2 4 
l 2 1 3 
2 1 4 2 

0 
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Hallar la covarianza de la distribución. 


En primer lugar, convertimos la tabla de doble entrada en tabla simple y calculamos las 
medias aritméticas. 


X1 yl fi x1- fl yl - fi X1 + yl - f1 
0 1 pa 0 2 0 
0 pa 1 0 Z 0 
0 3 2 0 6 0 
z 1 1 2 1 2 
2 Z 4 8 8 16 
Z 3 5 10 15 30 
4 1 3 12 3 12 
y Be Z 8 q 16 

20 40 41 76 

e a a 206 
ZL e 
O, = aa 2 ¿do ==0,3 
EL) 


4.3. Medias y varianzas de combinaciones lineales de variables aleatorias 


Dadas las variables aleatorias X1, X2,..., Xn y las constantes cl, c2,..., en, definimos la 
siguiente combinación lineal: Y =c1X1 +c2X2+...cnXn. 


Entonces tenemos que: 


E[Y — ny ¡AX ¡] .. Y e¿E[X] 


i=1 


El cálculo de 0% es mas complejo. De la definición de covarianza, es fácil verificar que “esta 
cumple con las siguientes propiedades: 


" Cov(X, X) = Var(X) 
s CovlaX, Y) =a-Cov(X, Y) 


"Coi Xi E Y) = El EJ, Cov(Yj, Xi) 


De lo que se desprende como corolario que: 


a = Var ; cVar(X;) + ccCov(X;, X;) 
(Lar) - 3 yy 


i=1 i=l j¡4iJ=1 


j 3 | o, a 
En el caso de que A X3,..., Xy sean independientes se cumplirá que 0, = 
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El caso de querer encontrar la distribución de la combinación lineal de variables aleatorias 
tendremos que emplear la convolución. Sean X1, X2 dos variables aleatorias discretas, y sea Y 
= X1 + X2. En tal caso 


P(Y = y) = Y PQ =i)P(X2 =y-i) 


4.4, Teorema de Chebyshev 
4.4.1. Desigualdad de Chebyshev 


La desigualdad de Chebyshev es un teorema utilizado en estadística que proporciona una 
estimación conservadora (intervalo de confianza) de la probabilidad de que una variable 
aleatoria con varianza finita, se sitúe a una cierta distancia de su esperanza matemática o de su 
media. 


Su expresión formal es la siguiente: 


| mo E 
P(IX — ul > k6) < 7 


X  = Valor estimado 

u  = Esperanza matemática del valor estimado 
O = Desviación típica del valor esperado 

k  = Número de desviaciones típicas 


Partiendo de esta expresión general y desarrollando la parte que queda dentro del valor 
absoluto tendríamos lo siguiente: 





P(U—=k6<X<u+k6)>1-3 


S1 prestamos atención a la expresión anterior, se aprecia que la parte de la izquierda no es 
más es un intervalo de confianza. Este nos ofrece tanto una cota inferior, como una superior 
para el valor estimado. Por lo tanto, la desigualdad de Chebyshev nos dice la probabilidad 
mínima, de que el parámetro poblacional se encuentre dentro de una determinada cantidad de 
desviaciones típicas por encima o por debajo de su media. O dicho de otra manera, nos da la 
probabilidad de que de que el parámetro poblacional se encuentre dentro de ese intervalo de 
confianza. 


La desigualdad de Chebyshev proporciona cotas aproximadas para el valor estimado. Á 
pesar de tener cierto grado de imprecisión, es un teorema bastante útil dado que se puede aplicar 
a un amplio abanico de variables aleatorias independientemente de sus distribuciones. La única 
restricción para poder utilizar esta desigualdad es que k tiene que ser mayor que l (k>1). 


Ejemplo de aplicación de la desigualdad de Chebyshev 


Supongamos que somos gestores de un fondo de inversión. La cartera que estamos 
gestionando tiene una rentabilidad media del 8,14% y una desviación típica del 5,12%. Para 


3 


saber por ejemplo que porcentaje de nuestros retornos se encuentran al menos a 3 desviaciones 
típicas de nuestra rentabilidad media simplemente aplicaríamos la formula anterior de la 
expresión 2. 


k =1,96 
Sustituyendo el valor de k: 1-1/1,96%2 = 0,739 = 73,9% 


Esto quiere decir que hay un 73,9% de los resultados que están en el intervalo de confianza 
situado a 1,96 desviaciones típcas de la media. 


Realicemos el ejemplo anterior para valores distintos de k. 
k =2,46 

k=3 

Sustituyendo el valor de k: 1-1/2,462 = 0,833 = 83,5% 
Sustituyendo el valor de k: 1-1/342 = 0,889 = 88,9% 


Hay un 83,5% de los datos que están a una distancia de 2,46 desviaciones típicas de la media 
y un 88,9% que están a 3 desviaciones típicas de la media. 


Utilizando la desigualdad de Chebyshev, es sencillo deducir que a mayor valor de K (mayor 
desviación del valor estimado sobre su media) mayor probabilidad de que la variable aleatoria 
se encuentro dentro del intervalo acotado. 


5. DISTRIBUCIÓN DE PROBABILIDAD DISCRETA 
5.1. conceptos Generales 


Uno de los objetivos de la estadística es el conocimiento cuantitativo de una determinada 


parcela de la realidad. Para ello, es necesario construir un modelo de esta realidad particular 
objeto de estudio, partiendo de la premisa de que lo real es siempre más complejo y multiforme 
que cualquier modelo que se pueda construir. De todas formas, la formulación de modelos 
aceptados por las instituciones responsables y por los usuarios, permite obviar la existencia del 
error o distancia entre la realidad y el modelo. 


Los modelos teóricos a los que se hace referencia se reducen en muchos casos a (o incluyen 


en su formulación) funciones de probabilidad. La teoría de la probabilidad tiene su origen 
en el estudio de los juegos de azar, que impulsaron los primeros estudios sobre cálculo de 
probabilidades en el siglo XVI, aunque no es hasta el siglo XVIII cuando se aborda la 
probabilidad desde una perspectiva matemática con la demostración de la “ley débil de los 
grandes números” según la cual, al aumentar el número de pruebas, la frecuencia de un suceso 
tiende a aproximarse a un número fijo denominado probabilidad. Este enfoque, denominado 
enfoque frecuentista, se modela matemáticamente en el siglo XX cuando Kolmogorov formula 
la teoría ax1iomática de la probabilidad1. Dicha teoría define la probabilidad como una función 
que asigna a cada posible resultado de un experimento aleatorio un valor no negativo, de forma 
que se cumpla la propiedad aditiva. La definición axiomática establece las reglas que deben 
cumplir las probabilidades, aunque no asigna valores concretos. 


Uno de los conceptos más importantes de la teoría de probabilidades es el de variable 


aleatoria que, intuitivamente, puede definirse como cualquier característica medible que 
toma diferentes valores con probabilidades determinadas. Toda variable aleatoria posee una 
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distribución de probabilidad que describe su comportamiento (vale decir, que desagrega el l a 
lo largo de los valores posibles de la variable). Si la variable es discreta, es decir, si toma valores 
aislados dentro de un intervalo, su distribución de probabilidad especifica todos los valores 
posibles de la variable junto con la probabilidad de que cada uno ocurra. En el caso continuo, 
es decir, cuando la variable puede tomar cualquier valor de un intervalo, la distribución de 
probabilidad permite determinar las probabilidades correspondientes a con subintervalos de 
valores. Una forma usual de describir la distribución de probabilidad de una variable aleatoria 
es mediante la denominada función de densidad, en tanto que lo que se conoce como función 
de distribución representa las probabilidades acumuladas2-7. 


Una de las preocupaciones de los científicos ha sido construir modelos de distribuciones de 


probabilidad que pudieran representar el comportamiento teórico de diferentes fenómenos 
aleatorios que aparecían en el mundo real. La pretensión de modelar lo observable ha 
constituido siempre una necesidad básica para el científico empírico, dado que a través de esas 
construcciones teóricas, los modelos, podía experimentar sobre aquello que la realidad no le 
permitía. Por otra parte, un modelo resulta extremadamente útil, siempre que se corresponda 
con la realidad que pretende representar o predecir, de manera que ponga de relieve las 
propiedades más importantes del mundo que nos rodea, aunque sea a costa de la simplificación 
que implica todo modelo. 


En la práctica hay unas cuantas leyes de probabilidad teóricas, como son, por ejemplo, la ley 
binomial o la de Poisson para variables discretas o la ley normal para variables continuas, que 
sirven de modelo para representar las distribuciones empíricas más frecuentes 


Así, por ejemplo, la variable “talla de un recién nacido” puede tener valores entre 47 cm y 
53 


cm, pero no todos los valores tienen la misma probabilidad, porque las más frecuentes son 
las tallas próximas a los 50 cm. En este caso la ley normal se adapta satisfactoriamente a la 
distribución de probabilidad empírica, que se obtendría con una muestra grande de casos. 


Se ofrece, en este módulo, procedimientos usuales para calcular probabilidades y sus 


inversas, para un conjunto bastante amplio de funciones de distribución, discretas y 
continuas, que son habituales en el proceso de modelación. Por ejemplo, el conjunto de 
distribuciones pertenecientes a la familia exponencial es de uso frecuente en metodologías 
como el análisis de supervivencia o el Modelo Lineal Generalizado. Otras distribuciones son 
comunes y habituales en el campo de actuación de disciplinas tales como la economía, la 
biología, etc. 


Cuando la opción elegida es el cálculo de una probabilidad dado un punto x de la 


distribución, se presentan en todos los casos dos resultados: la probabilidad acumulada hasta 
ese punto, Oo la probabilidad de que la variable tome valores inferiores o iguales a x (cola 
izquierda) y la probabilidad de valores superiores a x (cola derecha). En el caso continuo, la 
probabilidad de que la variable sea igual a cualquier punto es igual a cero; por tanto, no influye 
en las colas el hecho de incluir o excluir el punto x. Hay un tercer resultado que el programa 
presenta sólo para las distribuciones continuas simétricas (normal, logística y t de Student): la 
probabilidad de dos colas, es decir, la probabilidad que queda a ambos lados del intervalo (-x, 
Xx) Ó (x, -X), según el punto sea positivo o negativo, respectivamente. 


Asimismo, los resultados de Epidat incluyen la media y la varianza de la correspondiente 
distribución, así como la mediana y/o la moda en el caso de las distribuciones continuas. Epidat 
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también ofrece la posibilidad de representar, gráficamente, las funciones de distribución y 
densidad. 


5.2. distribución uniforme discreta 


Las distribuciones discretas incluidas en el módulo de “Cálculo de probabilidades” son: 


Distribución Uniforme discreta 
Geométrica 

Binomial 

Binomial Negativa 
Hipergeométrica 

Poisson 


O 


5.2.1. Distribución Uniforme discreta (a,b) 
Describe el comportamiento de una variable discreta que puede tomar n valores distintos 


con la misma probabilidad cada uno de ellos. Un caso particular de esta distribución, que 
es la que se incluye en este módulo de Epidat , ocurre cuando los valores son enteros 
consecutivos. Esta distribución asigna igual probabilidad a todos los valores enteros entre el 
límite inferior y el límite superior que definen el recorrido de la variable. S1 la variable puede 
tomar valores entre a y b, debe ocurrir que b sea mayor que a, y la variable toma los valores 
enteros empezando por a, a+l, a+2, etc. hasta el valor máximo b. Por ejemplo, cuando se 
observa el número obtenido tras el lanzamiento de un dado perfecto, los valores posibles 


siguen una distribución uniforme discreta en [1, 2, 3, 4, 5, 6), y la probabilidad de cada cara 
es 1/6 


Valores: 

x: a, a+l, a+2, ..., b, números enteros 

Parámetros: 

a: mínimo, a entero 

b: máximo, b entero con a < b 

Ejercicio 

El temario de un examen para un proceso selectivo contiene 50 temas, de los cuales se 
elegirá 


uno por sorteo. Si una persona no ha estudiado los 15 últimos temas ¿Cuál es la probabilidad 
de que apruebe el examen? 


La variable que representa el número del tema seleccionado para el examen sigue una 


distribución uniforme con parámetros a=1 y b=50. La persona aprueba el examen si le 
toca un tema del 1 al 35; por tanto, la probabilidad que se pide es la cola a la izquierda de 35. 
Para obtener los resultados en Epidat 3.1 basta con proporcionarle los parámetros de 
la distribución, y seleccionar calcular probabilidades para el punto 35. 


Resultados con Epidat 3.1 
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Resultados con Epidat 3.1 


Cálculo de probabilidades. Distribuciones discretas 


Uniforme discreta (a,b) 
a: Minimo 

Bb: Máximo 

Punto K 


Probabilidad Pr[X=k] 0,0200 
Cola Izquierda Pr[Xx<=k] 0,7000 
Cola Derecha Pr[X>k] 0, 3000 


Media ¿5,5000 
Varianza 208,2500 





La persona tiene una probabilidad de aprobar igual a 0,7. 
5.2.2. Distribución Binomial (n,p) 
La distribución binomial es una distribución discreta muy importante que surge en muchas 
aplicaciones bioestadísticas. 
Esta distribución aparece de forma natural al realizar repeticiones independientes de un 


experimento que tenga respuesta binaria, generalmente clasificada como “éxito” oO 
“fracaso”. Por ejemplo, esa respuesta puede ser el hábito de fumar (sí/no), si un paciente 
hospitalizado desarrolla o no una infección, o si un artículo de un lote es o no defectuoso. 
La variable discreta que cuenta el número de éxitos en n pruebas independientes de ese 
experimento, cada una de ellas con la misma probabilidad de “éxito” igual a p, sigue una 
distribución binomial de parámetros n y p. Este modelo se aplica a poblaciones finitas de las 
que se toma elementos al azar con reemplazo, y también a poblaciones conceptualmente 
infinitas, como por ejemplo las piezas que produce una máquina, siempre que el proceso de 
producción sea estable (la proporción de piezas defectuosas se mantiene constante a largo 


plazo) y sin memoria (el resultado de cada pieza no depende de las anteriores). 


Un ejemplo de variable binomial puede ser el número de pacientes ingresados en una unidad 
hospitalaria que desarrollan una infección nosocomial 


Un caso particular se tiene cuando n=1, que da lugar a la distribución de Bernoulli. 
Valores: 

a e O AS 

Parámetros: 

n: número de pruebas, n > O entero p: probabilidad de éxito, O<p <1 

Ejercicio 

En un examen formado por 20 preguntas, cada una de las cuales se responde declarando 


“verdadero” o “falso”, el alumno sabe que, históricamente, en el 75% de los casos 
la respuesta correcta es “verdadero” y decide responder al examen tirando dos monedas, pone 
“falso” si ambas monedas muestran una cara y “verdadero” si al menos hay una cruz. Se 
desea saber qué probabilidad hay de que tenga al menos 14 aciertos. 


Hay que proporcionarle a Epidat 3.1 los parámetros de la distribución y el punto k a partir 
del cual se calculará la probabilidad. En este caso n=20, p=0,73 y el punto k=14. 
Resultados con Epidat 3.1 


1] 


Resultados con Epidat 3.1 


Cálculo de probabilidades. Distribuciones discretas 


Binomial (n,p) 

n: Número de pruebas 

p: Probabilidad de éxito 0,7500 
Punto K 14 


Probabilidad  Pr[X=k] 0,1686 
Cola Izquierda Pr[X<=k] 0,3828 
Cola Derecha Pr[X>k] 0,6172 


Media 15,0000 
Varianza 3,7500 





La probabilidad de que el alumno tenga más de 14 aciertos se sitúa en 0,61. 


5.2.3. Distribución Hipergeométrica (N,R,n) 


La distribución hipergeométrica suele aparecer en procesos muestrales sin reemplazo, en 
los que se investiga la presencia o ausencia de cierta característica. Piénsese, por ejemplo, en 
un procedimiento de control de calidad en una empresa farmacéutica, durante el cual se extraen 
muestras de las cápsulas fabricadas y se someten a análisis para determinar su Composición. 
Durante las pruebas, las cápsulas son destruidas y no pueden ser devueltas al lote del que 
provienen. En esta situación, la variable que cuenta el número de cápsulas que no cumplen 
los criterios de calidad establecidos sigue una distribución hipergeométrica. Por tanto, esta 
distribución es la equivalente a la binomial, pero cuando el muestreo se hace sin reemplazo. 


Esta distribución se puede ilustrar del modo siguiente: se tiene una población finita con 
N elementos, de los cuales R tienen una determinada característica que se llama “éxito” 
(diabetes, obesidad, hábito de fumar, etc.). El número de “éxitos” en una muestra aleatoria de 
tamaño n, extraída sin reemplazo de la población, es una variable aleatoria con distribución 
hipergeométrica de parámetros N, R y n 


Cuando el tamaño de la población es grande, los muestreos con y sin reemplazo 
son equivalentes, por lo que la distribución hipergeométrica se aproxima en tal caso a 
la binomial. 


Valores: 


x: maxf0,n-(N-R)], ..., minfR,n], donde maxf0,n-(N-R)) indica el valor máximo entre O y 
n-(N-R) y minfR,n] indica el valor mínimo entre R y n. 


Parámetros: 

N: tamaño de la población, N>0 entero 

R: número de éxitos en la población, R>0 entero n: número de pruebas, n>0 entero 
Ejercicio 

Se sabe que el 7% de los útiles quirúrgicos en un lote de 100 no cumplen 


ciertas especificaciones de calidad. Tomada una muestra al azar de 10 unidades sin 
reemplazo, interesa conocer la probabilidad de que no más de dos sean defectuosos. 
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El número de útiles defectuosos en el lote es R=0,07x100=7. Para un tamaño muestral 
de n=10, la probabilidad buscada es Pínúmero de defectuosos < 2). Resultados con Epidat 3.1 


Resultados con Epidat 3.1 


Cálculo de probabilidades. Distribuciones discretas 


Hipergeométrica (N,R,n) 

N : Tamaño de la población 
R : Número éxitos en la pob. 
n : Número de pruebas 

Punto K 


Probabilidad Pr[X=k] 0,1235 
Cola Izquierda Pr[Xx<=k] 0,9792 
Cola Derecha Pr[X>k] 0,0206 


Media 0,7000 
Varlanza 0,5918 





La probabilidad de que a lo sumo haya dos útiles defectuosos en el lote es aproximadamente 
0,98. 


5.2.4. Distribución Geométrica (p) 


Supóngase, que se efectúa repetidamente un experimento o prueba, que las repeticiones son 
independientes y que se está interesado en la ocurrencia o no de un suceso al que se refiere 
como “éxito”, siendo la probabilidad de este suceso p. La distribución geométrica permite 
calcular la probabilidad de que tenga que realizarse un número k de repeticiones hasta 
obtener un éxito por primera vez. Así pues, se diferencia de la distribución binomial en que 
el número de repeticiones no está predeterminado, sino que es la variable aleatoria que se 
mide y, por otra parte, el conjunto de valores posibles de la variable es ilimitado. 


Para ilustrar el empleo de esta distribución, se supone que cierto medicamento opera 
exitosamente ante la enfermedad para la cual fue concebido en el 80% de los casos a los que se 
aplica; la variable aleatoria “intentos fallidos en la aplicación del medicamento antes del primer 
éxito” sigue una distribución geométrica de parámetro p=0,8. Otro ejemplo de variable 
geométrica es el número de hijos hasta el nacimiento de la primera niña 


La distribución geométrica se utiliza en la distribución de tiempos de espera, de manera que 
si los ensayos se realizan a intervalos regulares de tiempo, esta variable aleatoria 
proporciona el tiempo transcurrido hasta el primer éxito. 


Esta distribución presenta la denominada “propiedad de Harkov” o de falta de memoria, 
que implica que la probabilidad de tener que esperar un tiempo í no depende del tiempo que ya 
haya transcurrido. 


Valores: 
x:0,1,2,... 
Parámetros: 


p: probabilidad de éxito, O<p<1l 
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Ejercicio 
La probabilidad de que cierto examen médico dé lugar a una reacción “positiva” es igual 


a 0,8, ¿cuál es la probabilidad de que ocurran menos de 3 reacciones “negativas” antes de 
la primera positiva? 


La variable aleatoria “número de reacciones negativas antes de la primera positiva” sigue 
una distribución Geométrica con parámetro p=0,8. 


Resultados con Epidat 3.1 


Cálculo de probabilidades. Distribuciones discretas 


Geométrica (p) 
p : Probabilidad de éxito 0,8000 
Punto K 4 


Probabilidad Pr [X=k] 0,0013 
Cola Izquierda Pr[X<=k] 0,9997 
Cola Derecha Pr [X>k] 0,0003 


Media 0,2500 
Varianza 0,3125 





La probabilidad de que ocurran menos de 3 reacciones “negativas” antes de la primera 
positiva es casi 1 (0,9997), 


5.2.5. Distribución Binomial negativa (r,p) 


Una generalización obvia de la distribución geométrica aparece si se supone que 
un experimento se continúa hasta que un determinado suceso, de probabilidad p, ocurre por 
r-ésima vez. La variable aleatoria que proporciona la probabilidad de que se produzcan k 
fracasos antes de obtener el r-ésimo éxito sigue una distribución binomial negativa de 
parámetros r y p, BN(r,p). La distribución geométrica corresponde al caso particular en que 
r=1. Un ejemplo es el número de lanzamientos fallidos de un dado antes de obtener un 6 en 
tres Ocasiones, que sigue una BN(3,1/6). 


En el caso de que los sucesos ocurran a intervalos regulares de tiempo, esta variable 
proporciona el tiempo total para que ocurran r éxitos, por lo que también se denomina 
“distribución binomial de tiempo de espera”. 


La distribución binomial negativa fue propuesta, originalmente, como una alternativa a 
la distribución de Poisson para modelar el número de ocurrencias de un suceso cuando los 
datos presentan lo que se conoce como variación extra-Poisson o sobredispersión. En estas 
situaciones, la varianza es mayor que la media, por lo que se incumple la propiedad que 
caracteriza a una distribución de Poisson, según la cual la media es igual a la varianza. La 
primera aplicación en bioestadística la realizó Student (William S. Gosset) a principios de 
siglo cuando propuso esta distribución para modelar el número de glóbulos rojos en una 
gota de sangre. En este caso, la variabilidad extra se debe al hecho de que esas células no 
están uniformemente distribuida en la gota, es decir, la tasa de intensidad no es homogénea. 


Por ejemplo, la distribución binomial negativa es más adecuada que la de Poisson para 


modelar el número de accidentes laborales ocurridos en un determinado lapso. La 
distribución de Poisson asume que todos los individuos tienen la misma probabilidad de 
sufrir un accidente y que ésta permanece constante durante el período de estudio; sin 
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embargo, es más plausible la hipótesis de que los individuos tienen probabilidades 
constantes en el tiempo, pero que varían de unos sujetos a otros; esto es lo que se conoce en 
la literatura como la propensión a los accidentes (“accident proneness”)?”. Esta hipótesis 
se traduce en una distribución de Poisson mixta, o de efectos aleatorios, en la que se supone 
que las probabilidades varían entre individuos de acuerdo a una distribución gamma y 
esto resulta en una distribución binomial negativa para el número de accidentes. 


Valores: 

E o O A 

Parámetros: 

p: probabilidad de éxito, O<p<1 

r: número de éxitos, 1>0 

Ejercicio 

Se sabe que, en promedio, de cada 100 placas de rayos X que se realizan, una es defectuosa. 
¿Cuál es el número medio de placas útiles que se producen entre 10 defectuosas” 

S1 se considera el primer fallo como punto de inicio, hay que considerar la variable “número 


de placas útiles antes de 9 defectuosas”, que sigue una distribución binomial negativa 
de parámetros r=9 y p=0,01. 


Resultados con Epidat 3.1 


Cálculo de probabilidades. Distribuciones discretas 


Binomial negativa (r,p) 

r : Número de éxitos Y 
p : Probabilidad de éxito 0,0100 
Punto K 1 


Media 891 ,0000 
Varianza 89100,0000 





Entre 10 placas defectuosas se producen, en promedio, unas 891 placas útiles. 


5.2.6. Distribución Poisson (lambda) 


La distribución de Poisson, que debe su nombre al matemático francés Simeón Denis 
Poisson (1781-1840), ya había sido introducida en 1718 por Abraham De Moivre como 
una forma límite de la distribución binomial que surge cuando se observa un evento raro 
después de un número grande de repeticiones!'”. En general, la distribución de Poisson se 
puede utilizar como una aproximación de la binomial, Bin(n, p), si el número de pruebas n es 
grande, pero la probabilidad de éxito p es pequeña; una regla es que la aproximación Poisson- 
binomial es “buena” si n>20 y p<0,05 y “muy buena” si n>100 y p<0,01. 
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La distribución de Poisson también surge cuando un evento o suceso “raro” ocurre 
aleatoriamente en el espacio o el tiempo. La variable asociada es el número de ocurrencias 
del evento en un intervalo o espacio continuo, por tanto, es una variable aleatoria discreta 
que toma valores enteros de O en adelante (0, 1, 2,...). Así, el número de pacientes que llegan a 
un consultorio en un lapso dado, el número de llamadas que recibe un servicio de atención a 
urgencias durante 1 hora, el número de células anormales en una superficie histológica o el 
número de glóbulos blancos en un milímetro cúbico de sangre son ejemplos de variables que 
siguen una distribución de Poisson. En general, es una distribución muy utilizada en 
diversas áreas de la investigación médica y, en particular, en epidemiología. 


El concepto de evento “raro” o poco frecuente debe ser entendido en el sentido de que 
la probabilidad de observar k eventos decrece rápidamente a medida que k aumenta. 
Supóngase, por ejemplo, que el número de reacciones adversas tras la administración de un 
fármaco sigue una distribución de Poisson de media lambda=2. Si se administra este fármaco 
a 1.000 individuos, la probabilidad de que se produzca una reacción adversa (k=1) es 0,27; 
los valores de dicha probabilidad para k=2, 3, 4, 5, 6 reacciones, respectivamente, son: 0,27; 
0,18; 0,09; 0,03 y 0,01. Para k=10 o mayor, la probabilidad es virtualmente O. El rápido 
descenso de la probabilidad de que se produzcan k reacciones adversas a medida que k 
aumenta puede observarse claramente en el gráfico de la función de densidad obtenido con 
Epidat 


Para que una variable recuento siga una a 
distribución de Poisson deben cumplirse varias DM OS 


condiciones: 0244 qe] a 


l. En un intervalo muy pequeño (p. e. de un alo 0 A | qn | el | PP. : bazas | Souza j bado | : 
milisegundo) la probabilidad de que 0462+---- o A pie anos | 


ocurra un evento es proporcional al tamaño del o 
intervalo. o001 Y --- 


2. La probabilidad de que ocurran dos o más 
eventos en un intervalo muy pequeño es tan reducida O IO O DO DOS IO 
que, a efectos prácticos, se puede considerar nula. 01.02.0304 58 6 7 8008 


3. El número de ocurrencias en un intervalo 
pequeño no depende de lo que ocurra en 


cualquier otro intervalo pequeño que no se solape con aquél. 
Estas propiedades pueden resumirse en que el proceso que genera una distribución de 


Poisson es estable (produce, a largo plazo, un número medio de sucesos constante 
por unidad de observación) y no tiene memoria (conocer el número de sucesos en un intervalo 
no ayuda a predecir el número de sucesos en el siguiente). 


El parámetro de la distribución, lambda, representa el número promedio de eventos 


esperados por unidad de tiempo o de espacio, por lo que también se suele hablar de lambda 
como “la tasa de ocurrencia” del fenómeno que se observa. 
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A veces se usan variables de Poisson con "intervalos" que no son espaciales ni 
temporales, sino de otro tipo. Por ejemplo, para medir la frecuencia de una enfermedad se 
puede contar, en un período dado, el número de enfermos en cierta población, dividida en 
"intervalos" de, por ejemplo, 10.000 habitantes. Al número de personas enfermas en una 
población de tamaño prefijado, en un instante dado, se le denomina prevalencia de la 
enfermedad en ese instante y es una variable que sigue una distribución de Poisson. Otra 
medida para la frecuencia de una enfermedad es la incidencia, que es el número de personas 
que enferman en una población en un periodo determinado. En este caso, el intervalo es 
de personas-tiempo, habitualmente personas-año, y es también una variable con distribución 
de Poisson. Habitualmente, ambas medidas se expresan para intervalos de tamaño unidad o, 
dicho de otro modo, en lugar de la variable número de enfermos, se usa el parámetro 
lambda (el riesgo, en el caso de la prevalencia, y la densidad de incidencia, en el de incidencia). 


La distribución de Poisson tiene iguales la media y la varianza. Si la variación de los 
casos observados en una población excede a la variación esperada por la Poisson, se está 
ante la presencia de un problema conocido como sobredispersión y, en tal caso, la 
distribución binomial negativa es más adecuada. 


Valores: 

Do Y AR 

Parámetros: 

lambda: media de la distribución, lambda > O 

Ejercicio 

El número de enfermos que solicitan atención de urgencia en un hospital durante un periodo 


de 24 horas tiene una media de 43,2 pacientes. Se sabe que el servicio se colapsará si 
el número de enfermos excede de 50. ¿Cuál es la probabilidad de que se colapse el servicio 
de urgencias del hospital”? Representar la función de densidad de probabilidad. 


Para calcular la probabilidad pedida y, además, representar la función de densidad de 


probabilidad hay que marcar el cuadro situado en la parte inferior derecha de la pantalla: 
Obtener las funciones de distribución y densidad. 
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Resultados con Epidat 3.1 


Cálculo de probabilidades. Distribuciones discretas 


Poisson (1lambda j 
lambda : Media 43,2000 
Punto KE 50 


Probabilidad Pr[X=k] 0,0339 
Cola Izquierda Pr[Xz<=k] 0,8657 
Cola Derecha Pr [X>k] 0,1343 
Media 43,2000 
Warianza 43,2000 


Función de dencicdad 
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La probabilidad de que el servicio colapse está cerca de 0,13, 


La probabilidad de que el servicio colapse está cerca de 0,13. 
5.2.7. Resumen 


En modo de resumen les mostrare las formulas utilizadas para cada uno de los modelos de 
distribución 


Algunas Distribuciones Discretas 


MEDIA = U, = Y xo 


Xx 


VARIANZA = Ele —?] = ) (2 10?-f00 = Elx?] - 0 


Distribución Discreta Uniforme 


1 
FG; k) =x7 X= Xx Xd) 200, X ke 
_ Dim X 2 1 (X, — uy 
Ñ k 
Distribución Binomial 
b(x;n,p) = (7) pg x=0,11,72,..,n 
u=np 0”2=npg 


Distribución Multinomial 
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Distribución Hipergeométrica 
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Distribución Multivariada 
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Distribución Binomial Negativa 


bx(kp)= (67 Jogo, x=k,k+1,1k+2,.. 


Distribución Geométrica 


gOop)=p:qr* x=123... 





Distribución De Poisson 


—At Xx 
e At 
p(x; At) = AA x=01,2,3,... 


n= —At 
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Distribución Uniforme Discreta 
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6. ALGUNAS DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 


Las distribuciones continuas incluidas en el módulo de “Cálculo de probabilidades” son: 


= Uniforme " Gamma 

"= Normal "=  Exponencial 

"=  Lognormal "=  Ji-cuadrado 

= Logística "=  tde Student 

= Beta "= FdeSnedecor 


6.1.Distribución Uniforme (a,b) 


La distribución uniforme es útil para describir una variable aleatoria con probabilidad 
constante sobre el intervalo [a,b] en el que está definida. Esta distribución presenta una 
peculiaridad importante: la probabilidad de un suceso dependerá exclusivamente de la 
amplitud del intervalo considerado y no de su posición en el campo de variación de la 
variable. 


Cualquiera sea la distribución F de cierta variable X, la variable transformada Y=F(X) sigue 
una distribución uniforme en el intervalo [0,1]. Esta propiedad es fundamental por ser la base 
para la generación de números aleatorios de cualquier distribución en las técnicas de simulación 


Campo de variación: 

a <x<b Parámetros: 

a: mínimo del recorrido b: máximo del recorrido 
Ejercicio 


Supóngase una variable que se distribuye uniformemente entre 380 y 1.200. Determínese: 
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1. La probabilidad de que el valor de la variable sea superior a mil. 

2. La media y la desviación estándar de dicha variable. 

A Epidat se le proporcionará el límite superior e inferior del campo de variación de la 
variable [380, 1.200] y, además, el punto a partir del cual se quiere calcular la probabilidad. 


Resultados con Epidat 3.1 


Cálculo de probabilidades. Distribuciones continuas 


Uniforme (a,b) 
a + Miñnime 
3 2 Máximo 


" pen, nn 
¡E 


790,0000 
56033,3333 


FO LAEPEPES 





La probabilidad de que la variable sea superior a mil se sitúa en un entorno de 0,24, la media 
es 790 y la desviación estándar, raíz cuadrada de la varianza, es aproximadamente 237. 


Ejercicio 

Un contratista A está preparando una oferta sobre un nuevo proyecto de construcción. 
La oferta sigue una distribución uniforme entre 55 y 75 miles de euros. Determínese: 

l. La probabilidad de que la oferta sea superior a 60 mil euros. 

2. La media y la desviación estándar de la oferta. 


A Epidat se le proporcionará el límite superior e inferior del campo de variación de 
la variable [55, 75] y, además, el punto a partir del cual se quiere calcular la probabilidad. 


Resultados con Epidat 3.1 
Cálculo de probabilidades. Distribuciones continuas 


Uniforme (a,b) 
¿ Minimo 
¿ MAximo 

14 


: 
a] 
Dir da ps 
Punto A 


I2quierda 


Derecha 


Media 65,0000 
Warianza 33,3333 
Mediana 65, 0000 





La probabilidad de que la oferta sea superior a 60 mil euros se sitúa en un entorno de 0,75, 
y la media es 65. 


6.2.Distribución Normal (Mu, Sigma) 


La distribución normal es, sin duda, la distribución de probabilidad más importante del 
Cálculo de probabilidades y de la Estadística. Fue descubierta por De Moivre (1773), como 
aproximación de la distribución binomial. De todas formas, la importancia de la distribución 
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normal queda totalmente consolidada por ser la distribución límite de numerosas variables 
aleatorias, discretas y continuas, como se demuestra a través de los teoremas centrales del 
límite. Las consecuencias de estos teoremas implican la casi universal presencia de la 
distribución normal en todos los campos de las ciencias empíricas: biología, medicina, 
psicología, física, economía, etc. En particular, muchas medidas de datos continuos en 
medicina y en biología (talla, presión arterial, etc.) se aproximan a la distribución normal. 


Junto a lo anterior, no es menos importante el interés que supone la simplicidad de sus 
características y de que de ella derivan, entre otras, tres distribuciones (Ji-cuadrado, t y F) 
que se mencionarán más adelante, de importancia clave en el campo de la contrastación de 
hipótesis estadísticas. 


La distribución normal queda totalmente definida mediante dos parámetros: la media (Mu) 
y la desviación estándar (Sigma). 


Campo de variación: 

-00 < Xx <00 

Parámetros: 

Mu: media de la distribución, -oo < Mu < oo 

Sigma: desviación estándar de la distribución, Sigma > O 

Ejercicio 

Se supone que el nivel de colesterol de los enfermos de un hospital sigue una distribución 
normal con una media de 179,1 mg/dL y una desviación estándar de 28,2 mg/dL. 

l. Calcule el porcentaje de enfermos con un nivel de colesterol inferior a 169 mg/dL. 


2. ¿Cuál será el valor del nivel de colesterol a partir del cual se encuentra el 10% de los 
enfermos del hospital con los niveles más altos” 


3. Represente la función de densidad. 
En este caso, se tendrá que ejecutar Epidat 3.1 dos veces: en el primer caso para calcular una 


probabilidad, en el segundo caso el dato de entrada es una probabilidad, concretamente la 
cola de la derecha, lo que permitirá obtener el punto. En ambas ejecuciones se ofrece, de manera 
opcional, la función de densidad del nivel de colesterol. 
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Cálculo de probabilidades. Distribuciones continuas 


Normal (Mu, Sigma) 

Mu : Media 179,1000 
Sigma : Desviación estándar 28,2000 
Punto X 169,0000 


Cola Izquierda Pr[x<=k] 0,3601 
Cola Derecha Pr[x>=k] 0,6399 
Dos Colas 1-Pr[|X|<=k] O, 7202 


Función de caridad 





El porcentaje de enfermos con un nivel de colesterol inferior a 169 mg/dL es 36%. 


2. Resultados con Epidat 3.1 


Cálculo de probabilidades, Distribuciones continuas 
Normal (Mu, Sigma) 

Miu : Media 179,1000 

Sigma : Desviación estándar 28,2000 

Cola Izquierda Pr[x<=k] 0,9000 


Cola Derecha Pr[x>=k] 0,1000 
Dos Colas 1-Pr[|x|<=k] O, 2000 


Punto X 215,2398 





A partir de 215,24 mg/dL se encuentran los valores de colesterol del 10% de los enfermos 
que tienen los valores más altos. 


6.3.Distribución Lognormal (Mu, Sigma) 
La variable resultante al aplicar la función exponencial a una variable que se distribuye 


normal con media Mu y desviación estándar Sigma, sigue una distribución lognormal con 
parámetros Mu (escala) y Sigma (forma). Dicho de otro modo, si una variable X se distribuye 
normalmente, la variable InX, sigue una distribución lognormal. 


La distribución lognormal es útil para modelar datos de numerosos estudios médicos tales 


como el período de incubación de una enfermedad, los títulos de anticuerpo a un virus, el 
tiempo de supervivencia en pacientes con cáncer o SIDA, el tiempo hasta la seroconversión de 
VIH+, etc. 
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Campo de variación: 
O <x <oo Parámetros: 
Mu: parámetro de escala, -oo < Mu < o Sigma: parámetro de forma, Sigma > 0 


Ejercicio Supóngase que la supervivencia, en años, luego de una intervención quirúrgica 
(tiempo que pasa hasta que ocurre la muerte del enfermo) en una cierta población sigue una 
distribución lognormal de parámetro de escala 2,32 y de forma 0,20. Calcúlese la probabilidad 
de supervivencia a los 12 años, la mediana de supervivencia y represente la función de 
distribución de la variable. 


Resultados con Epidat 
Resultados con Epidat 3.1 


Cálculo de probabilidades, Distribuciones continuas 


Lognormal (Mu,Sigma) 

Mu : Escala 2,3200 
Sigma : Forma 0,2000 
Punto X 12,0000 


Cola Izquierda Pr[x<=k] 0,7852 
Cola Derecha Pr [X>=k] 0,2048 


Media 10,3812 
Varianza 4,3982 
Mediana 10,1757 
Moda 9,7167 





La probabilidad de supervivencia a los 12 años se sitúa próximo a 0,20. 
La función de distribución de la supervivencia a la intervención quirúrgica se presenta a 


continuación: 


Función de distribución 


Fx) 





6.4.Distribución Logística (a, b) 
La distribución logística se utiliza en el estudio del crecimiento temporal de variables, en 


particular, demográficas. En biología se ha aplicado, por ejemplo, para modelar el 
crecimiento de células de levadura, y para representar curvas de dosis-respuesta en bivensayos. 


La más conocida y generalizada aplicación de la distribución logística en Ciencias de la 
Salud se fundamenta en la siguiente propiedad: si U es una variable uniformemente distribuida 
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en el intervalo [0,1], entonces la variable X = Ln ( ) sigue una distribución logística. Esta 


1-U 


transformación, denominada logit, se utiliza para modelar datos de respuesta binaria, 
especialmente en el contexto de la regresión logística. 


Campo de variación: 


-00 <x <oo Parámetros: 


a: parámetro de posición, -oo <a < oo b: parámetro de escala, b > 0 


Ejercicio 


El crecimiento relativo anual (%) de la población de un determinado país sigue 
una distribución logística de parámetro de posición 1 y de escala 2. Calcular la probabilidad 
de que el crecimiento en un año determinado sea superior al 5% y representar la función 


de densidad. 


Resultados con Epidat 3.1 


Cálculo de probabilidades. Distribuciones continuas 


Logística (a,b) 
a : Posición 

B : Escala 
Punto X 


Cola Izquierda 
Cola Derecha 
Dos Colas 
Media 

Varianza 


La probabilidad de que la población tenga un crecimiento superior al 5% es del orden de 


0,12. 
6.5.Distribución Beta (p,q) 


1,0000 
2,0000 
5,0000 


Pr[X<=k] 0,8808 
Pr[X>=k] 0,1192 
l1-Pr[|X|<=k] 0,2384 
1,0000 
13,1595 
1,0000 
1,0000 





La distribución beta es posible para una variable aleatoria continua que toma valores en el 


intervalo [0,1], lo que la hace muy apropiada para modelar proporciones. En la inferencia 
bayesiana, por ejemplo, es muy utilizada como distribución a priori cuando las observaciones 


tienen una distribución binomial. 
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Uno de los principales recursos de esta distribución es el ajuste a una gran variedad de 


distribuciones empíricas, pues adopta formas muy diversas dependiendo de cuáles sean los 
valores de los parámetros de forma p y q, mediante los que viene definida la distribución. 


Un caso particular de la distribución beta es la distribución uniforme en [0,1], que se 
corresponde con una beta de parámetros p=1 y q=1, denotada Beta(1,1). 

Campo de variación: 

0O<x< l Parámetros: 

p: parámetro de forma, p > O q: parámetro de forma, q > O 

Ejercicio 

En el presupuesto familiar, la porción que se dedica a salud sigue una distribución Beta(2,2). 
1. ¿Cuál es la probabilidad de que se gaste más del 25% del presupuesto familiar en 
salud”? 

2. ¿Cuál será el porcentaje medio que las familias dedican a la compra de productos y 
servicios de salud? 


Resultados con Epidat 3.1 


Cálculo de probabilidades. Distribuciones continuas 


Beta (p,q) 

p : Forma ¿, 0000 
q : Forma ¿, 0000 
Punto X 0, 2500 


Cola Izquierda Pr[X<=k] 0,1563 
Cola Derecha Pr[X>=k] 0,8438 


Media 0,5000 
Varianza 0,0500 
Moda 0,5000 





Teniendo en cuenta la distribución beta, la probabilidad de que se gaste más de la cuarta 


parte del presupuesto en salud será 0,84 y el porcentaje medio que las familias dedican a la 
compra de productos y servicios de salud será el 50%. 


6.6.Distribución Gamma (a,p) 


La distribución gamma se puede caracterizar del modo siguiente: si se está interesado en la 


ocurrencia de un evento generado por un proceso de Poisson de media lambda, la variable 
que mide el tiempo transcurrido hasta obtener n ocurrencias del evento sigue una distribución 
gamma con parámetros a= nxlambda (escala) y p=n (forma). Se denota Gamma(a,p). 


Por ejemplo, la distribución gamma aparece cuando se realiza el estudio de la duración de 


elementos físicos (tiempo de vida). 
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Esta distribución presenta como propiedad interesante la “falta de memoria”. Por esta razón, 


es muy utilizada en las teorías de la fiabilidad, mantenimiento y fenómenos de espera (por 
ejemplo en una consulta médica “tiempo que transcurre hasta la llegada del segundo paciente”). 


Campo de variación: 

O <x<oo Parámetros: 

a: parámetro de escala, a > O p: parámetro de forma, p > 0 

Ejercicio 1 

El número de pacientes que llegan a la consulta de un médico sigue una distribución de 


Poisson de media 3 pacientes por hora. Calcular la probabilidad de que transcurra menos de 
una hora hasta la llegada del segundo paciente. 


Debe tenerse en cuenta que la variable aleatoria “tiempo que transcurre hasta la llegada del 


segundo paciente” sigue una distribución Gamma (6, 2). 


Cálculo de probabilidades. Distribuciones continuas 


6,0000 
2,0000 
1,0000 


Cola Izquierda Pr[X<=k] 0,9826 
Cola Derecha Pr[xX>=k] 0,0174 


Media 
WVarlanza 
Moda 





La probabilidad de que transcurra menos de una hora hasta que llegue el segundo paciente 
es 0,98. 

Ejercicio 2 

Suponiendo que el tiempo de supervivencia, en años, de pacientes que son sometidos a una 


cierta intervención quirúrgica en un hospital sigue una distribución Gamma con parámetros 
a=0,81 y p=7,81, calcúlese: 


|. El tempo medio de supervivencia. 
2. Los años a partir de los cuales la probabilidad de supervivencia es menor que 0,1. 


Resultados con Epidat 
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Resultados con Epidat 3.1 


Cálculo de probabilidades. Distribuciones continuas 


Gamma (a, p) 

a : Escala 0,8100 
p : Forma +,B100 
Cola Izquierda Pr[X<=k] 0, 9000 
Cola Derecha Pr[X>=k] 0,1000 


Punto X 14,2429 
Media 9,6420 


Varianza 11,9037 
Moda 8,1074 





El tiempo medio de supervivencia es de, aproximadamente, 10 años. 


6.7.Distribución Exponencial (lambda) 


La distribución exponencial es el equivalente continuo de la distribución geométrica 
discreta. 


Esta ley de distribución describe procesos en los que interesa saber el tiempo hasta que 
ocurre determinado evento; en particular, se utiliza para modelar tiempos de supervivencia. Un 
ejemplo es el tiempo que tarda una partícula radiactiva en desintegrarse. El conocimiento de la 
ley que sigue este evento se utiliza, por ejemplo, para la datación de fósiles o cualquier materia 
orgánica mediante la técnica del carbono 14. 


Una característica importante de esta distribución es la propiedad conocida como “falta de 


memoria”. Esto significa, por ejemplo, que la probabilidad de que un individuo de edad t 
sobreviva x años más, hasta la edad x+t, es la misma que tiene un recién nacido de sobrevivir 
hasta la edad x. Dicho de manera más general, el tiempo transcurrido desde cualquier instante 
dado t0 hasta que ocurre el evento, no depende de lo que haya ocurrido antes del instante t0. 


La distribución exponencial se puede caracterizar como la distribución del tiempo entre 


sucesos consecutivos generados por un proceso de Poisson; por ejemplo, el tiempo que 
transcurre entre dos heridas graves sufridas por una persona. La media de la distribución de 
Poisson, lambda, que representa la tasa de ocurrencia del evento por unidad de tiempo, es el 
parámetro de la distribución exponencial, y su inversa es el valor medio de la distribución. 


También se puede ver como un caso particular de la distribución gamma(a,p), con a=lambda 
y p=1. El uso de la distribución exponencial ha sido limitado en bioestadística, debido a la 
propiedad de falta de memoria que la hace demasiado restrictiva para la mayoría de los 
problemas. 


Campo de variación: 

0 <x <oo Parámetros: 

lambda: tasa, lambda > O 

Ejercicio 

Se ha comprobado que el tiempo de vida de cierto tipo de marcapasos sigue una distribución 


exponencial con media de 16 años. ¿Cuál es la probabilidad de que a una persona a la que 
se le ha implantado este marcapasos se le deba reimplantar otro antes de 20 años? Si el 
marcapasos lleva funcionando correctamente 5 años en un paciente, ¿cuál es la probabilidad de 
que haya que cambiarlo antes de 25 años” 
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La variable aleatoria “tiempo de vida del marcapasos” sigue una distribución exponencial 
de parámetro lambda=1/16=0,0625 


Resultados con Epidat 3.1 


Cálculo de probabilidades. Distribuciones continuas 


Exponencial (lambda) 
lambda : Tasa 0,0625 
Punto X 20, 0000 


Cola Izquierda Pr[X<=k] 0,7135 
Cola Derecha Pr[X>=k] 0,2565 





La probabilidad de que se le tenga que implantar otro marcapasos antes de los 20 años se 
sitúa en un entorno a 0,71. 


Teniendo en cuenta la propiedad de “falta de memoria” de la exponencial, la probabilidad 


de tener que cambiar antes de 23 años un marcapasos que lleva funcionando $ es igual a la 
probabilidad de cambio a los 20 años, es decir, P(X<25/X>5) = P(X<20) = 0,71. 


6.8.Distribución Ji-cuadrado (n) 


Un caso especial, muy importante, de la distribución Gamma se obtiene cuando a=1/2 y 


p=n/2. La distribución resultante se conoce con el nombre de Ji-cuadrado con n grados de 
libertad. Es la distribución que sigue la suma de los cuadrados de n variables independientes 
N(0, 1). 


La Ji-cuadrado es una distribución fundamental en inferencia estadística y en los tests 


estadísticos de bondad de ajuste. Se emplea, entre muchas otras aplicaciones, para 
determinar los límites de confianza de la varianza de una población normal, para contrastar la 
hipótesis de homogeneidad o de independencia en una tabla de contingencia y para pruebas de 
bondad de ajuste. 


La distribución Ji-cuadrado queda totalmente definida mediante sus grados de libertad n. 
Campo de variación: 


0 <x <oo Parámetros: 

n: grados de libertad, n>0 

Ejercicio 

Considere la distribución Ji-cuadrado con 2 grados de libertad. 

1. ¿Qué proporción del área bajo la curva se ubica a la derecha de 9,21? 
2. ¿Qué valor de la variable aísla el 10% superior de la distribución” 


1. Resultados con Epidat 3.1 
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Cálculo de probabilidades. Distribuciones continuas 


Ji=cuadrado (n) 
n : Grados de libertad 2 
Punto X 9,2100 


Cola Izquierda Pr[xX<=k] O, 9900 
Cola Derecha Pr[X>=k] 0,0100 





El 1% del área bajo la curva se ubica a la derecha de 9,21. 


2. Resultados con Epidat 3.1 


Cálculo de probabilidades. Distribuciones continuas 


Ji-=cuadrado (n) 
n : Grados de libertad 2 


Cola Izquierda Pr[X<=k] 0,9000 
Cola Derecha Pr[xX>=k] 0,1000 


Punto X 





El valor 4,6052 divide a la distribución en dos partes: el 90% de ésta queda a la izquierda de 
dicho punto y el 10% a la derecha. 


6.9.Distribución t de Student (n) 


La distribución t de Student se construye como un cociente entre una normal y la raíz de una 


Ji-cuadrado independientes. Esta distribución desempeña un papel importante en la 
inferencia estadística asociada a la teoría de muestras pequeñas. Se usa habitualmente en el 
contraste de hipótesis para la media de una población, o para comparar las medias de dos 
poblaciones, y viene definida por sus grados de libertad n. 


A medida que aumentan los grados de libertad, la distribución t de Student se aproxima a 
una normal de media O y varianza 1 (normal estándar). 
Campo de variación: 

-00 <x <oo Parámetros: 

n: grados de libertad, n>0 
Ejercicio 
La distribución t de Student se aproxima a la normal a medida que aumentan los grados de 
libertad. 


Y” Calcular, para una distribución N(0,1), el punto que deja a la derecha una cola de 
probabilidad 0,05. 

Y” Calcular, para una distribución t de Student, la probabilidad de que la variable tome 
un valor a la derecha de ese punto. Tomar como grados de libertad sucesivamente n= 
10 y n= 500. 


Para el primer apartado hay que seleccionar en la lista de distribuciones la normal de 


parámetros Mu=0 y Sigma=1. 
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1. Resultados con Epidat 3.1 


1. Resultados con Epidat 3.1 


Cálculo de probabilidades. Distribuciones continuas 


Normal (Mu, Sigma) 

Mu : Media 0,0000 
Sigma : Desviación estándar 1,0000 
Cola Izquierda Pr[X<=k] 0,9500 
Cola Derecha Pr[X>=k] 0,0500 
Dos Colas 1-Pr[|X|<=k] 0,1000 


Punto X 1,6449 


Media 0, 0000 
Varianza 1,0000 





En el segundo apartado se ejecutará dos veces Epidat 3.1: la primera vez con una distribución 
t de Student con 10 grados de libertad y la segunda vez con 500 grados de libertad. 


2. Resultados con Epidat 
Cálculo de probabilidades. Distribuciones continuas 


t de Student (n) 
n : Grados de libertad 10 
Punto X 1,6449 


Cola Izquierda Pr[X<=k] 0,9345 
Cola Derecha Pr[xX>=k] 0,0655 
Dos Colas 1-Pr[|X]|<=k] 0,1310 


Cálculo de probabilidades. Distribuciones continuas 


t de Student (nm) 
n : Grados de libertad 500 
Punto X 1,6449 


Cola Izquierda Pr[X<=k] 0,9497 
Cola Derecha Pr[X>=k] 0,0503 
Dos Colas 1=Pr[|X]|<=k] D,1006 





Se aprecia claramente que, al aumentar los grados de libertad de la t de Student, la 
probabilidad se acerca a la calculada con la distribución Normal. 

6.10. Distribución F de Snedecor (n,m) 
Otra de las distribuciones importantes asociadas a la normal es la que se define como el 


cociente de dos variables con distribución Ji-cuadrado divididas por sus respectivos grados 
de libertad, n y m. En este caso la variable aleatoria sigue una distribución F de Snedecor de 
parámetros n y m. Hay muchas aplicaciones de la F en estadística y, en particular, tiene un papel 
importante en las técnicas del análisis de la varianza y del diseño de experimentos. 


Campo de variación: 
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O <x<oo Parámetros: 
n: grados de libertad del numerador, n>0 
m: grados de libertad del denominador, m>0 
Ejercicio 
En un laboratorio se efectuaron ciertas mediciones y se comprobó que seguían una 


distribución F con 10 grados de libertad en el numerador y 12 grados de libertad en el 
denominador. 


1. Calcule el valor que deja a la derecha el 5% del área bajo la curva de densidad. 
2. ¿Cuál es la probabilidad de que la medición sea superior a 4,307 
3. Represente la función de distribución y de densidad de las medidas. 


1. Resultados con Epidat 


Cálculo de probabilidades, Distribuciones continuas 


F de Snedecor (n,m) 

n : Grados libertad del num. 10,0000 
m : Grados libertad del denom. 12,0000 
Cola Izquierda Pr[X<=k] 0,9500 
Cola Derecha Pr[X>=k] 0,0500 





Punto X 2,1534 


El valor que deja a la derecha una probabilidad de 0,03 es 2,73. 

2. Resultados con Epidat 
Cálculo de probabilidades, Distribuciones continuas 
F de Snedecor (n,m) 
n : Grados libertad del num. 10, 0000 


m : Grados libertad del denom.  12,0000 
Punto X ad, 3000 


Cola Izquierda Pr[X<=k] 0,9900 
Cola Derecha Pr[X>=k] 0,0100 


Media 1,2000 
Varianza 0, 7200 
Moda 0,6857 





La probabilidad que deja a la derecha 4,30 es 0,01. 
3. Las funciones de densidad y distribución de las medidas efectuadas se presentan a 


continuación: 
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Función de densidad Función de distrisución 


Fl) al 





7. FUNCIONES DE VARIABLES ALEATORIAS 


7.1.Funciones de variables aleatorias cambio de variable 
7.1.1. Teorema 


Si X :(Q, A,P) -— (R,B,Px) es una variable aleatoria y g : (R,B) -— (R, B) es 
una función medible, entonces Y = g(X) : (Q, A,P ) -— (R,B) es una variable 
aleatoria. 


Demostración 
v'BEB, Y B)=((X)"B)=X "(e (B)EeAEB 


Por tanto, Y es medible y, puesto que está definida sobre un espacio de probabilidad 
es una variable aleatoria. 


Nos planteamos el problema de obtener la distribución de probabilidad de Y a 
partir de la de X. En teoría, el problema se resuelve de forma inmediata mediante 
el siguiente teorema general. 


7.1.2, Teorema general de Cambio de Variable 
Sea X : (Q, A,P) -—> (R,B,Px) una variable aleatoria y g : (R,B) -— (R,B) 
una función medible. Sea Y = g(X), entonces 


vVBEB, (B)=Px(g8 UB)» 


vy ER, Fy (y) = Px(g (oo, y]) 

Demostración 
Py(B) =P[Y  (B)=P[X"(g (B)]=Px(g (B) 
Fy (y) = Pr (oo, y]) = Px(g (oo, y])) 


Pero en la práctica trabajaremos con variables discretas o continuas, O sea, con 
funciones masa de probabilidad o funciones de densidad. Nos interesa, por tanto, 
especificar las fórmulas de cambio de variable para tales casos. 
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7.2. Cambio de variable discreto 
7.2.1. Teorema 


SiX : (QA,P) -—> (R,B,Px) una variable aleatoria discreta, P((fX E Ex ]) 
= l y g :(R,B) -— (R,B) una función medible, entonces Y = g(X) es discreta con 
valores en g(Ex) y 


PlY=y)= Y), P[X=x) WeEyg(Ex) 


Eg HGÓNE y 


Demostración 
g(Ex) es numerable y P/Y Eg(Ex)] =P f2CX) Eg(Ex) =P[X EEx] =1 


Py ESEX), PLY =y) =P [800 = y) =P[X €g (9) =P[X =x] 
xEeg (yNNEx 


7.3. Cambio De Variable Continuo 
Ejemplo 1 


Sea X una variable aleatoria continua con función de densidad 
1/2 re(-11) 

| 0 IE (—1,1) 

y 2 : (R, B) -— (R, B) una función medible definida como 


O r:<0 
gli) = 
1 x>0 


Ejemplo 2 


glzj= 
lo 2>0 


Aquí analizaremos el caso de transformaciones que convierten una variable continua 
en discreta y el caso de transformaciones biunívocas de variables continuas (que 
transforman variables continuas en continuas). 


7.3.1. Teorema de cambio de variable de continuo a discreto 


Sea X : (Q, A,P ) — (R,B,Px) una variable aleatoria continua con función de 
densidad fx y sea Y = g(X) una variable aleatoria discreta con valores en un 
conjunto numerable Ey. Entonces, 


Wy € Ey, PÍY =yj= / fx(1) de 
q *y) 
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Demostración 


P(Y =y) = Plg(X) =y) =P1X € g (y) = S,-:; fx (2) de 


Ejemplo 


Sea X una variable aleatoria continua con función de densidad 





y sea Y una variable aleatoria definida como 


1 X>0Ú 
Y=4 1/2 X=0 
1 X<U0 


7.3.2. Teorema de cambio de variable continuo a continuo 


Sea X : (Q,A,P) — (R, B, Px) una variable aleatoria continua con valores en el 
intervalo (a, b)L(fx >0 Ex Ela,b)) y sea g : (a,b) —> R una función derivable y 
estrictamente monótona (creciente o decreciente). Entonces Y = g(X) es una variable 
aleatoria continua con función de densidad 


da” * (y) 
dy 


fxlg (y) y E g((a,b)) 








Fr(y) = 
10 y É gía, b)) 


EJEMPLOS 
Ejemplo 1 


Sea X una variable aleatoria continua con función de densidad 


| EN ru 
f (a ) UN ( ApTAr r=>i 


Calcular la función de densidad de Y = X?. 


Ejemplo 2 


Sea X una variable aleatoria continua con función de densidad fx y función de 
distribución Fx. Calcular la función de densidad y la función de distribución de Y = aX 
+ b, siendo a, b ER. 
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8. DISTRIBUCIONES FUNDAMENTALES DE MUESTREO Y 


DESCRIPCIONES DE DATOS 


8.1. Muestreo aleatorio 


El muestreo aleatorio constituye una de las clases más populares de muestreo aleatorio o 


probabilístico. 


En esta técnica, cada miembro de la población 
tiene la misma probabilidad de ser seleccionado 
como sujeto. Todo el proceso de toma de muestras 
se realiza en un paso, en donde cada sujeto es 
seleccionado independientemente de los otros 
miembros de la población. 


El muestreo aleatorio siemple se puede aplicar en 
muchos métodos. El más primitivo y mecánico sería 
el de la lotería. A cada miembro de la población se le 
asigna un número. Todos los números se colocan en 


el telelele! Jejeleleja 
00060000000 


0de000000O00O 
00000000060 
000060000000 
000000008005 

00000000006 


un recipiente o un sombrero y se mezclan. Con los ojos vendados, el investigador va sacando 
las etiquetas con números. Todos los individuos que tengan los números sacados por el 
investigador son los sujetos del estudio. Otra forma sería que una computadora haga la selección 
al azar de la población. En el caso de poblaciones con pocos miembros, es aconsejable utilizar 
el primer método, pero si la población tiene muchos miembros, es preferible una selección 


aleatoria por computadora. 


8.1.1.Ventajas del muestreo aleatorio simple 


Una de las mejores cosas del muestreo aleatorio simple es la facilidad para armar la muestra. 
También se considera una forma justa de seleccionar una muestra a partir de una población, ya 
que cada miembro tiene igualdad de oportunidades de ser seleccionado. 


Otra característica clave del muestreo aleatorio simple es la representatividad de la 
población. En teoría, lo único que puede poner en peligro su representatividad es la suerte. Si 
la muestra no es representativa de la población, la variación aleatoria es denominada error de 


muestreo. 


Para sacar conclusiones de los resultados de un estudio son importantes una selección 
aleatoria imparcial y una muestra representatva. Recuerda que uno de los objetivos de la 
investigación es sacar conclusiones con relación a la población a partir de los resultados de una 
muestra. Debido a la representatividad de una muestra obtenida mediante un muestreo aleatorio 
simple, es razonable hacer generalizaciones a partir de los resultados de la muestra con respecto 


a la población. 


8.1.2.Desventajas del muestreo aleatorio simple 


Una de las limitaciones más evidentes del muestreo aleatorio simple es la necesidad de una 
lista completa de todos los miembros de la población. Debes tener en cuenta que la lista de la 
población debe estar completa y actualizada. Esta lista generalmente no está disponible en 
poblaciones grandes. En estos casos, es más prudente utilizar otras técnicas de muestreo. 
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8.2.  Inferencia de la media poblacional a partir de la media muestral 


La Inferencia Estadística es aquella rama de la Estadística mediante la cual se trata de sacar 
conclusiones de una población en estudio, a partir de la información que proporciona una 
muestra representativa de la misma. También es denominada Estadística Inductiva o Inferencia 
Inductiva ya que es un procedimiento para generar nuevo conocimiento científico. 


La muestra se obtiene por observación o experimentación. La necesidad de obtener un 
subconjunto reducido de la población es obvia si tenemos en cuenta los costes económicos de 
la experimentación o el hecho de que muchos de los métodos de medida son destructivos. 


Toda inferencia inductiva exacta es imposible ya que disponemos de información parcial, 
sin embargo es posible realizar inferencias inseguras y medir el grado de inseguridad si el 
experimento se ha realizado de acuerdo con determinados principios. Uno de los propósitos de 
la inferencia Estadística es el de conseguir técnicas para hacer inferencias inductivas y medir el 
grado de incertidumbre de tales inferencias. La medida de la incertidumbre se realiza en 
términos de probabilidad. 


p ola cióvr / para Yyetv os 


precia (JA) 





La inferencia Estadística puede dividirse en dos apartados de acuerdo con el conocimiento 
sobre la distribución en la población. 


8.2.1. Inferencia Paramétrica 


Se conoce la forma de la distribución (Normal, Binomial, Poisson, etc .... ) pero se 
desconocen sus parámetros. Se realizan inferencias sobre los parámetros desconocidos de la 
distribución conocida. 


8.2.2. Inferencia No Parámetrica 


Forma y parámetros desconocidos. Se realizan inferencias sobre características que no tienen 
porque ser parámetros de una distribución conocida (Mediana, Estadísticos de Orden). 
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De acuerdo con la forma en que se estudian los parámetros o características desconocidas, 
la inferencia puede dividirse en dos apartados: 


8.2.3. Estimación 


Se intenta dar estimaciones de los parámetros desconocidos sin hacer hipótesis previas sobre 
posibles valores de los mismos. 


Y” Estimación puntual: Un único valor para cada parámetro. 

Y” Estimación por intervalos: Intervalo de valores probables para el parámetro. 

Y” Contraste de Hipótesis: Se realizan hipótesis sobre los parámetros desconocidos y 
se desarrolla un procedimiento para comprobar la verosimilitud de la hipótesis 
planteada. 


En la mayor parte de las investigaciones reales suponemos que las variables o 
transformaciones de las mismas (logaritmos, etc, ...) tienen distribuciones aproximadamente 
normales. 


3.2.4. Teorema del limite central 


Lo que hemos visto hasta el momento parece bastante restrictivo ya que hemos supuesto, de 
entrada, que la distribución en la población es normal, pero existen muchos casos en los que no 
es posible suponer distribución Normal. El siguiente resultado permite trabajar con la normal 
para la distribución muestral de medias aunque la población no lo sea, y es conocido como 
Teorema Central del Límite. 


Sea X1, X2,..., Xn , una muestra aleatoria de una población 
X con una distribución de probabilidad no especificada para la 
que la media es E(X) = m y la varianza Var(X)= s2 finita. La 
media muestral tiene una distribución con media m y varianza 
s2 /n que tiende a una distribución normal cuando n tiende a 


infinito. Tamaño de la muestra —> 0d 





La demostración del resultado excede los límites de un curso introductorio. 


La aproximación a la distribución normal es mejor para n grande ya que se trata de una 
aproximación y no de una distribución exacta como en el caso de poblaciones normales. En 
Estadística consideramos n grande cuando es mayor de 30. 


Una consecuencia directa del teorema es que la suma de los valores muestrales sigue una 
distribución normal de media nm y varianza ns2. 


El teorema de De Moivre que se explicó en el apartado de la normal puede entenderse 
también como un caso particular del Teorema Central del Límite. 


Sea una población en la que se mide una v.a. X con distribución binomial B(1,p), es decir, 
toma el valor 1 con probabilidad p y el valor O con probabilidad q, tiene una media p y una 
varianza pq. Una distribución B(n,p) puede entenderse como la suma de n binomiales B(1,p), 
luego aplicando el TCL, si n es grande la distribución B(n,p) se puede aproximar por una normal 
que tiene como media a np y como varianza npqa. 
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3.2.5. Muestreo 


Aunque la teoría que será desarrollada más tarde está referida solamente a muestras 
aleatorias simples, realizaremos aquí una rápida revisión de posibles métodos para la toma de 
muestras que podemos encontrarnos en la práctica. 


Los pasos a seguir para la recolección de una muestra son los siguientes: 


Definir la población en estudio especificando las unidades que la componen, el área 
geográfica donde se realiza el estudio (si procede) y el periodo de tiempo en el que se realizará 
el mismo. 


- Definir el marco: listado o descripción de los elementos que forman la población. 
- Definir la unidad de muestreo: Ciudades, calles, hogares, individuos, etc ... 
- Definir las variables a medir o las preguntas que se harán si se trata de una encuesta. 


- Seleccionar el método de muestreo: Probabilístico o No Probabilístico, aunque son los 
primeros los que nos permiten la estimación correcta de parámetros. 


- Calcular el tamaño necesario para obtener une determinada precisión en la estimación. Este 
punto se verá con más detalle en el apartado dedicado a la estimación por intervalos. 


- Elaborar el plan de muestreo que guiará el trabajo de campo. 


En cuanto al tipo de muestreo, algunas de las características más importantes de los 


muestreos probabilísticos más usuales se detallan a continuación: 
Y” Muestreo aleatorio simple (Mas) 


Se trata de un procedimiento de muestreo (sin 
reemplazamiento), en el que se seleccionan n unidades de las N 
en la población, de forma que cualquier posible muestra del 
mismo tamaño tiene la misma probabilidad de ser elegidas. 


Se realizan n selecciones independientes de forma que en cada 
selección los individuos que no han sido elegidos tengan la misma 
probabilidad de serlo. 


El procedimiento habitual consiste en numerar todos los elementos de la población y se 
seleccionan muestras del tamaño deseado utilizando una tabla de números aleatorios o un 
programa de ordenador que proporcione números aleatorios. 


Recuérdese que "al azar" no significa "de cualquier manera", para que el procedimiento de 
muestreo sea válido es necesario utilizar correctamente el proceso de generación de números 
aleatorios. 


Entre las ventajas de este procedimiento esta la compensación de valores altos y bajos con 
lo que la muestra tiene una composición similar a la de la población, es además un 
procedimiento sencillo y produce estimadores de los parámetros desconocidos próximos a los 
valores reales de los mismos. 
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El principal inconveniente de este tipo de muestreo es que necesita un marco adecuado y 
amplio que no siempre es fácil de conseguir y que no contiene información a priori sobre la 
población que podría ser útil en la descripción de la misma. 


Y” Muestreo sistemático 


- Se ordenan los individuos de la población y se numeran. - Se 
divide la población en tantos grupos como individuos se quieren 
tener en la muestra. Se selecciona uno al azar en el primer grupo 
y se elige el que ocupa el mismo lugar en todos los grupos. 





-La ventaja principal es que es más sencillo y más barato que 
el muestreo aleatorio simple, además, se comporta igual si no hay 
patrones o periodicidades en los datos. 


-La aparición de patrones desconocidos puede llevar a importantes errores en la estimación 
de los parámetros. 


Este tipo de muestreo puede utilizarse, por ejemplo, en encuestas telefónicas programadas 
mediante ordenador. 


Y” Muestreo por conglomerados 


-Se divide la población en grupos de acuerdo con su 
proximidad geográfica o de otro tipo. (conglomerados). Cada 
grupo ha de ser heterogéneo y tener representados todos las 
características de la población. 





Por ejemplo, los conglomerados en un estudio sobre la 
situación de las mujeres en una determinada zona rural pueden ser 
los municipios de la zona. 


-Se selecciona una muestra de conglomerados al azar y se toma el conglomerado completo 
o una muestra del mismo. 

-Necesitan menos información previa sobre los individuos particulares. 

-Soluciona el problema de los patrones en los datos. 

-S1 el número de bloques no es muy grande se puede incurrir en errores de estimación si se 
han incluido conglomerados atípicos. 

-Los conglomerados que se realizan teniendo en cuenta proximidad geográfica pueden no 
tener un significado importante en la población (no responden a una característica real). 

- Este tipo de muestreo se utiliza fundamentalmente para reducir los costes de toma de 
muestras al tomar grupos de individuos completos. 


Y” Muestreo estratificado 


FAA Se divide la población en grupos homogéneos (estratos) de 
acuerdo con las características a estudiar. Por ejemplo, en un 
a Le estudio de las características socioeconómicas de una ciudad los 
estratos pueden ser los barrios de la misma, ya que los barrios 
SONO suelen presentar características diferenciales. 


-Se selecciona una muestra aleatoria de cada estrato tratando 
de que todos los estratos de la población queden representados. 
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-Permite utilizar información a priori sobre la estructura de la población en relación con las 
variables a estudiar. 


- Obtiene representantes de todos los estratos de la población. 

-Diferentes opciones de selección del tamaño de la muestra en los estratos: 
-El mismo número en cada estrato. 
-Proporcional. (La más común) 
-Optima. 

Notas: 


-El problema más importante en la realización de una investigación por muestreo es 
encontrar el marco adecuado (Lista de los elementos de la población que pueden ser incluidos 
en la muestra). 


-En algunos casos es necesario encontrar una población identificable mayor que la población 
de interés y que incluya a la misma. Por ejemplo, si queremos realizar una encuesta sobre los 
trabajadores de la construcción de la ciudad de Salamanca y no disponemos de una lista de los 
mismos, podemos tomar una lista de los cabezas de familias trabajadores o de las viviendas 
ocupadas. El único problema adicional es que la encuesta será más cara. 


8.1. distribuciones muestrales 


Todo lo que veremos a continuación está pensado para poblaciones infinitas (muy grandes) 
y con muestreo aleatorio simple. El muestreo aleatorio simple garantiza una muestra 
representativa de la población y la obtención de observaciones independientes. 


Dada una población X, el proceso de muestreo consiste en obtener, al azar, un valor de la 
variable X, x1; El valor obtenido puede ser cualquiera de los de la población, luego los posibles 
valores para x1 son todos los de X, y por tanto x1 puede considerarse como una realización 
particular (observación) de una variable aleatoria X1 con la misma distribución que X. 


A continuación obtenemos, independientemente de la primera observación, un valor x2 que 
puede considerarse como una realización particular de una variable aleatoria X2 con la misma 
distribución que X e independiente de X1. Obsérvese que la población no se modifica al extraer 
uno de sus individuos ya que es infinita. (Si la población es finita podría utilizarse un muestreo 
con reemplazamiento). 


El proceso continúa hasta obtener una muestra de tamaño n, n observaciones xl, x2,... , xn 
de n variables aleatorias X1, X2, ..., Xn independientes e idénticamente distribuidas. 


Definición: Sea X una variable aleatoria con f.d.p F, y sean X1, X2, ..., Xn , n variables 
aleatorias independientes con la misma f.d.p F que X. Se dice que X1, X2, ..., Xn , son una 
muestra aleatoria de tamaño n de F o bien n observaciones independientes de X. 


Hemos utilizado letras minúsculas, como en descriptiva, para denotar las observaciones 
particulares de una muestra, y letras mayúsculas para denotar las variables aleatorias de las que 
se han tomado. A lo largo de la exposición teórica ambas serán intercambiables y serán 
utilizadas indistintamente para representar a las correspondientes variables aleatorias. 
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Otra forma de ver la muestra es como una variable aleatoria multivariante con función de 
densidad de probabilidad es el producto de las funciones de densidad de cada una de las 
componentes (ya que son independientes) 


f£(X1, X2, ..., Xn) =f(X1) £(X2) ... £(Xn) 


Donde las funciones de densidad son iguales a la de X. Esta forma de entender la muestra 
supera el ámbito de un curso introductorio. 


Una vez obtenida la muestra la describimos en términos de algunas de sus características 
fundamentales como la media, la desviación típica, etc ... A tales características las solemos 
denominar estadísticos. 


Definición: Un estadístico es una función de los valores muestrales que no depende de 
ningún parámetro poblacional desconocido. 


Un estadístico es también una variable aleatoria ya que es una función de variables 
aleatorias. Por ejemplo la media muestral 


Veámoslo con un ejemplo sencillo 


Supongamos que disponemos de una población finita en la que disponemos de 4 individuos 
que toman los valores (1, 2, 3, 4). 


Supongamos que obtenemos una muestra sin reemplazamiento de tamaño 2. Las distintas 
posibilidades son 


t1, 23 (1,33 (1, 43 (2, 3, (2, 4, (3, 45 
Obtendremos, dependiendo de la muestra elegida, las siguientes medias respectivamente: 
ML 


Es claro que la media muestral no es un valor fijo sino que puede considerarse también 
como una variable aleatoria de la que tenemos una sola observación, la media de la muestra 
concreta seleccionada. 


Dicha variable tendrá una distribución de probabilidad asociada. (En este caso una 
distribución discreta que toma los valores 1.5, 2, 2.5, 3 y 3.5 con probabilidades 1/6, 1/6, 2/6, 
1/6, 1/6, respectivamente. 


Definición: A la distribución de un estadístico calculado a partir de los valores tomados de 
una muestra se la denomina distribución muestral del estadístico. 


En la mayor parte de los casos supondremos que nuestra población tiene distribución normal 
y que los estadísticos que vamos a utilizar son la media y la desviación típica (o la cuasi 
desviación típica). 
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83.2. distribuciones muestrales de medias 


Sea X1, X2, ..., Xn , una muestra aleatoria de una población X en la que E(X) = u Var(X)= 


o? 


Entonces el valor esperado (media) y la varianza del estadístico "media muestral” son 


E(X)=u 
Van XA) = 8 
n 
o 
DesvíX) == 
== 


La comprobación del resultado es obvia si tenemos en cuenta que la esperanza de la suma 
de varias variables aleatorias independientes es la suma de las esperanzas, y que la varianza es 
la suma de las varianzas, y además que si multiplicamos una variable por una constante, la 
varianza queda multiplicada por la constante al cuadrado. Entonces 


A O 
Xi |=- Y E[X¡)=-nu4=u 
=l "ia y 


Ffnx. | n 7 7 
Var(X) = Var] pal [= SL var(X,)= n= g_ 
! 1 ) : : n* n 


7 
li=1 ¡=] M 


Si además, la población es normal, es decir, A =NIH .O entonces la media muestral es 
también normal AS NL. 0), 
Basta tener en cuenta las propiedades de la normal que ya se vieron en su momento. 


El resultado es importante en estimación ya que, aunque la media poblacional y la media 
muestral no coincidan, los posibles valores de la media muestral se concentran de forma 
simétrica alrededor de la media poblacional, además, la dispersión es menor a medida que 
aumenta el tamaño muestral. 


La distribución muestral de | 
media es normal 





Distribución muestral de las medias. 


La distribución muestral asociada a varianzas y cuasivarianzas es un poco más compleja y 
su obtención supera los objetivos del curso, de forma que nos limitaremos a exponerlas. 


Sea X1, X2, ..., Xn , una muestra aleatoria simple de una población X = N(u, 0”), entonces 
la variable aleatoria 


q 
(A; - y! 
i=l 


Gs 
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sigue una ji-cuadrado con n-1 grados de libertad. 
Del resultado anterior se deduce que las variables 
n S* (m 1357 
A E 


E - ., 
o o 





donde siguen ambas una ji-cuadrado con n-1 grados de libertad. 


3.3. Distribución muestral de s al cuadrado 


Otro caso especial muy importante de la distribución gamma se obtiene 


¡El 
l a==yfpp=¿2 es o od 
haciendo YB donde v es un entero positivo. El resultado se llama distribución ji 
cuadrada. La distribución tiene un parámetro sencillo, v, que recibe el nombre de grados de 
libertad. 


3.2.6. Definiciones: 


Y Distribución ji cuadrada La variable aleatoria continua X tiene una distribución ji 
cuadrada, con v grados de libertad, si su función de densidad es: 


1 y_ : 
FC) = 3x2 07a/ 


22T(v/2) 
Para x>0 


Y” Distribución ji cuadrada (x?). Es la distribución de una variable aleatoria que 
siempre es positiva, con una posición oblicua hacia la derecha y unimodal. La forma 
de la distribución depende de un parámetro llamado grados de libertad. La figura 1.1 
muestra una distribución ji cuadrada típica. 


Estadística de prueba para ji cuadrada. Una variable aleatoria cuya distribución de muestreo 
es aproximada a la de x2 es: 


(observada — esperada )* 


esperada 





Figura 1.1 Una distribución x2 


En realidad la distribución ji-cuadrada es la distribución muestral de s”. O sea que si se 
extraen todas las muestras posibles de una población normal y a cada muestra se le calcula su 
varianza, se obtendrá la distribución muestral de varianzas. 


Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el 
e E v 2 
estadístico X2. S1 se elige una muestra de tamaño n de una población normal con varianza0”: 


(ms? 


7 
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El estadístico tiene una distribución muestral que es una distribución ji-cuadrada con gl=n-1 grados 
de libertad y se denota X* (X es la minúscula de la letra griega ji). El estadístico ji-cuadrada está dado 
por: 


a ES is? 
A? 
eS 
Ñ : Ps ; De 
Donde n es el tamaño de la muestra, s* la varianza muestral y 0” la varianza de la población de 
donde se extrajo la muestra. El estadístico ji-cuadrada también se puede dar con la siguiente 
expresión: 


y AA 
es 


Propiedades 


Y” Los valores de X?* son mayores o iguales que 0. 

Y” La forma de una distribución X* depende del gl=n-1. En consecuencia, hay un número infinito 
de distribuciones X?. 

Y” El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1. 

Y Las distribuciones X* no son simétricas. Tienen colas estrechas que se extienden a la derecha; 

esto es, están sesgadas a la derecha. 

Cuando n>2, la media de una distribución X* es n-1 y la varianza es 2(n-l). 

El valor modal de una distribución X* se da en el valor (n-3). 

La siguiente figura ilustra tres distribuciones X?. 


SN YNYN 


gl=3 


gls 





1:23 46 77:00 7 E y 410 11 12153 14 


8.4, distribución T 


En las unidades anteriores se manejó el uso de la distribución z, la cual se podía utilizar 
siempre y cuando los tamaños de las muestras fueran mayores o iguales a 30 ó en muestras más 
pequeñas si la distribución o las distribuciones de donde proviene la muestra o las muestras son 
normales. 


En esta unidad se podrán utilizar muestras pequeñas siempre y cuando la distribución de 
donde proviene la muestra tenga un comportamiento normal. Esta es una condición para utilizar 
las tres distribuciones que se manejarán en esta unidad; t de student, X2 ji-cuadrada y Fisher. 


A la teoría de pequeñas muestras también se le llama teoría exacta del muestreo, ya que 
también la podemos utilizar con muestras aleatorias de tamaño grande. 


En esta unidad se verá un nuevo concepto necesario para poder utilizar a las tres 
distribuciones mencionadas. Este concepto es "grados de libertad”. 


Para definir grados de libertad se hará referencia a la varianza muestral: 
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Esta fórmula está basada en n-1 grados de libertad (degrees of freedom). Esta terminología 


. . y» . a conga pen — x a Y y 
resulta del hecho de que si bien s” está basada en n cantidades 17 *+ 4274... %*  *%r éstas 
suman cero, así que especificar los valores de cualquier n-/ de las cantidades determina el valor 


restante. Por ejemplo, si n=4 y 


E -F=- == a IT 
de ES S. de Ó y dE a entonces automáticamente tenemos ”+ , así 
L Á: e Xx ! s . 
que sólo tres de los cuatro valores de ”* están libremente determinamos 3 grados de 


libertad. 


Entonces, en esta unidad la fórmula de grados de libertad será n-1 y su simbología += **. 


Si *es el promedio de las n observaciones que contiene la muestra aleatoria, entonces la 





HTA 
E — 
7 
distribución es una distribución normal estándar. Supóngase que la varianza de la 
a 2 


población es desconocida. ¿Qué sucede con la distribución de esta estadística si se 


reemplaza o por s? La distribución f proporciona la respuesta a esta pregunta. 


, A 
La media y la varianza de la distribución fson *=0y Y lo 2) para Fs2, 
respectivamente. 


La siguiente figura presenta la gráfica de varias distribuciones í. La apariencia general de la 
distribución tes similar a la de la distribución normal estándar: ambas son simétricas y 


unimodales, y el valor máximo de la ordenada se alcanza en la media *= 0. Sin embargo, la 
distribución í tiene colas más amplias que la normal; esto es, la probabilidad de las colas es 
mayor que en la distribución normal. A medida que el número de grados de libertad tiende a 
infinito, la forma límite de la distribución tes la distribución normal estándar. 





Propiedades de las distribuciones t 


Y” Cada curva t tiene forma de campana con centro en O. 
Y” Cada curva t, está más dispersa que la curva normal estándar z. 


p 


Y” A medida que " aumenta, la dispersión de la curva t correspondiente disminuye. 
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Y” A medida que Fr —= la secuencia de curvas t se aproxima a la curva normal 
estándar, por lo que la curva z recibe a veces el nombre de curva t con gl = = 
La distribución de la variable aleatoria t está dada por: 
Le +12 
TMls+D1r2lf. E 
pre = AAA 0 a 
Plat 2)a re E 
Esta se conoce como la distribución t con F grados de libertad. 
Sean X1, X2,..., Xn variables aleatorias independientes que son todas normales con media 
Hs q mos 
* 
pH y desviación estándar gd. Entonces la variable aleatoria nl tiene una distribución t 


con v= n-1 grados de libertad. 


La distribución de probabilidad de t se publicó por primera vez en 1908 en un artículo de W. 
S. Gosset. En esa época, Gosset era empleado de una cervecería irlandesa que desaprobaba la 
publicación de investigaciones de sus empleados. Para evadir esta prohibición, publicó su 
trabajo en secreto bajo el nombre de "Student". En consecuencia, la distribución t normalmente 
se llama distribución 1 de Student, o simplemente distribución t. Para derivar la ecuación de esta 
distribución, Gosset supone que las muestras se seleccionan de una población normal. Aunque 
esto parecería una suposición muy restrictiva, se puede mostrar que las poblaciones no normales 
que poseen distribuciones en forma casi de campana aún proporcionan valores de t que se 
aproximan muy de cerca a la distribución t. 


La distribución t difiere de la de Z en que la varianza de t depende del tamaño de la muestra 
y siempre es mayor a uno. Unicamente cuando el tamaño de la muestra tiende a infinito las dos 
distribuciones serán las mismas. 


Se acostumbra representar con t,, el valor t por arriba del cual se encuentra un área igual a a. 


Como la distribución t es simétrica alrededor de una media de cero, tenemos E , es decir, 
el valor t que deja un área de 1 — q a la derecha y por tanto un área de « a la izquierda, es 1gual 
al valor t negativo que deja un área de « en la cola derecha de la distribución. Esto es, to.9s = - 
to.os, to.o9=-t0.01, etc. 


Para encontrar los valores de t se utilizará la tabla de valores críticos de la distribución t del 
libro Probabilidad y Estadística para Ingenieros de los autores Walpole, Myers y Myers. 


8.5. distribución F 


Usada en teoría de probabilidad y estadística, la distribución Fes una distribución de 
probabilidad continua. También se le conoce como distribución F de Snedecor (por George 
Snedecor) o como distribución F de Fisher-Snedecor (por Ronald Fisher). 


Una variable aleatoria de distribución F' se construye como el siguiente cociente: 


— Ur ¿di 
Unida 


=> 


F 





donde 
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Y Ul y U2 siguen una distribución chi-cuadrado con dl y d2 grados de libertad 
respectivamente, y 
Y” Ul y U2 son estadísticamente independientes. 


La distribución F aparece frecuentemente como la distribución nula de una prueba 
estadística, especialmente en el análisis de varianza. Véase el test F. 


La función de densidad de una F(d1, d2) viene dada por 


| 1 d, pe y Ñ y y _ 
glz) FS A A SSA 1 - —_—_— q 
B(d; /2, da 12) di 1 +de dí 1 +de 


para todo número real x > 0, donde dl y d2 son enteros positivos, y B es la función beta. 


La función de distribución es 


Gíz)=1I us: (di/2,d2/2) 





dy E=t de 


donde les la función beta incompleta regularizada. 


9. PROBLEMAS DE ESTIMACIÓN DE UNA Y DOS MUESTRAS 
91. introducción 


La estimación puntual trata el problema de estimar mediante un número el valor de una 
característica poblacional o parámetro O desconocido (por ejemplo, la estimación del IPC de un 
determinado período). En muchos casos la estimación puntual no es suficiente en el sentido de 
que no nos indica el error que se comete en dicha estimación. Lo razonable en la práctica es 
adjuntar, junto a la estimación puntual del parámetro, un cierto intervalo numérico que mida el 
margen de error que, de acuerdo a las observaciones muestrales, pueda tener dicha estimación. 
La idea de Intervalo de Confianza es proponer un rango de valores entre los que posiblemente 
se encuentre el verdadero valor del parámetro 6. 


Selección de la 


muestra O 








1 Inferencia ; 

E estadística al A pi 
Distribución de a : Distribución de la 
variable en la varlable en la 
oblación l , a muestra 

e Inferencia estadística 


scsi paramétrica y ' 
simplificación: 
X-N (1,0?) 


modelo paramétrico 


9.2. Inferencia estadística 


En inferencia estadística se llama estimación al conjunto de técnicas que permiten dar un 
valor aproximado de un parámetro de una población a partir de los datos proporcionados por 
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una muestra. Por ejemplo, una estimación de la media de una determinada característica de una 
población de tamaño N podría ser la media de esa misma característica para una muestra de 
tamaño n.l 


9.3. Métodos clásicos de estimación 


La estimación se divide en tres grandes bloques, cada uno de los cuales tiene distintos 
métodos que se usan en función de las características y propósitos del estudio: 


Y” Estimación puntual 
Método de los momentos; 
Método de la máxima verosimilitud; 
Método de los mínimos cuadrados; 
Y” Estimación por intervalos. 
Y” Estimación bayesiana. 


9.3.1. Estimación puntual 


La estimación de parámetros tiene por finalidad asignar valores a los parámetros 
poblacionales a partir de los estadísticos obtenidos en las muestras. Dicho de otra manera, la 
finalidad de la estimación de parámetros es caracterizar las poblaciones a partir de la 
información de las muestras (por ejemplo, inferir el valor de la Media de la población a partir 
de los datos de la muestra). 


La estimación puntual consiste en atribuir un valor (la estimación) al parámetro 
poblacional. Si la muestra es representativa de la población, podemos esperar que los 
estadísticos calculados en las muestras tengan valores semejantes a los parámetros 
poblacionales, y la estimación consiste en asignar los valores de los estadísticos muestrales a 
los parámetros poblacionales. Los estadísticos con que obtenemos las estimaciones se 
denominan estimadores. 


Ejemplo 


Se desea estimar la Media de las puntuaciones del curso 2003/4, pero solo se dispone de 50 
puntuaciones seleccionadas aleatoriamente. La Media de la muestra (el estimador), es igual a 
5.6 y atribuimos este valor (la estimación) a la Media del curso completo. 


Resumiendo: 
Media de la población (curso 2003/4) u= Desconocida 
Estimador: Media de la muestra: Y 


Estimación de u: 5.6 


Podemos utilizar como estimadores de la Media de la población otros estadísticos de 
tendencia central como la Moda o la Mediana, pero NO todos los estimadores son apropiados. 
Los estimadores deben satisfacer ciertos requisitos, y por esta razón, interesa conocer sus 
propiedades a fin de utilizar los que sean adecuados según las circunstancias de la estimación. 


Y Características estimadores 
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Sesgo. Se dice que un estimador es insesgado si la Media de la distribución del estimador 
es igual al parámetro. 


Estimadores insesgados son la Media muestral (estimador de la Media de la población) y la 
Varianza (estimador de la Varianza de la población): 





Ejemplo 


En una población de 500 puntuaciones cuya Media (m) es igual a 5.09 han hecho un 
muestreo aleatorio (número de muestras= 10000, tamaño de las muestras= 100) y hallan que la 
Media de las Medias muestrales es igual a 5.09, (la media poblacional y la media de las medias 
muestrales coinciden). En cambio, la Mediana de la población es igual a 3 y la Media de las 
Medianas es igual a 5.1 esto es, hay diferencia ya que la Mediana es un estimador sesgado. 


La Varianza es un estimador sesgado. Ejemplo: La Media de las Varianzas obtenidas con la 
Varianza 





en un muestreo de 1000 muestras (n=25) en que la Varianza de la población es igual 
a 9.56 ha resultado igual a 9.12, esto es, no coinciden. En cambio, al utilizar la Cuasivarianza 





la Media de las Varianzas muestrales es igual a 9.5, esto es, coincide con la Varianza de la 
población ya que la Cuasivarianza es un estimador insesgado. 


2) Consistencia. Un estimador es consistente si aproxima el valor del parámetro cuanto 
mayor es n (tamaño de la muestra). 


Algunos estimadores consistentes son: 





Ejemplo 


En una población de 500 puntuaciones cuya Media (m) es igual a 4.9 han hecho tres 
muestreos aleatorios (número de muestras= 100) con los siguientes resultados: 
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n Media de las Medias muestrales 
5 46 
25 4.8 
100 4.9 


vemos que el muestreo en que n=100 la Media de las Medias muestrales toma el mismo 
valor que la Media de la población. 


3) Eficiencia. Diremos que un estimador es más eficiente que otro si la Varianza de la 
distribución muestral del estimador es menor a la del otro estimador. Cuanto menor es la 
eficiencia, menor es la confianza de que el estadístico obtenido en la muestra aproxime al 
parámetro poblacional. 


Ejemplo 


La Varianza de la distribución muestral de la Media en un muestreo aleatorio (número de 
muestras: 1000, n=25) ha resultado igual a 0.4. La Varianza de la distribución de Medianas ha 
resultado, en el mismo muestreo, igual a 1.12, (este resultado muestra que la Media es un 
estimador más eficiente que la Mediana). 


9.3.2, Estimación por intervalos 


La estimación por intervalos consiste en establecer el intervalo de valores donde es más 
probable se encuentre el parámetro. La obtención del intervalo se basa en las siguientes 
consideraciones: 


a) Si conocemos la distribución muestral del estimador podemos obtener las probabilidades 
de ocurrencia de los estadísticos muestrales. 


b) Si conociéramos el valor del parámetro poblacional, podríamos establecer la 
probabilidad de que el estimador se halle dentro de los intervalos de la distribución muestral. 


c) El problema es que el parámetro poblacional es desconocido, y por ello el intervalo se 
establece alrededor del estimador. Si repetimos el muestreo un gran número de veces y 
definimos un intervalo alrededor de cada valor del estadístico muestral, el parámetro se sitúa 
dentro de cada intervalo en un porcentaje conocido de ocasiones. Este intervalo es 
denominado "intervalo de confianza”. 


Ejemplo 


Se generan 100000 muestras aleatorias (n=25) de una población que sigue la distribución 
Normal, y resulta: 


Población Distribución muestral 
Media $1 5.1 





Desviación Típica z 0.6 
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La distribución de las Medias muestrales aproxima al modelo Normal: 





En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias muestrales es 


as 2 10 
Uy 1.960 =5.1=(1.96//0.6)=¿ 





ho 


(Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución muestral 
son los valores cuya función de distribución es igual a 0.973 y 0.023 respectivamente y se 
pueden obtener en las tablas de la distribución Normal estandarizada o de funciones en 
aplicaciones informáticas como Excel). Seguidamente generamos una muestra de la población 
y Obtenemos su Media, que es igual a 4.5. Si establecemos el intervalo alrededor de la Media 
muestral, el parámetro poblacional (5.1) está incluido dentro de sus límites: 


o 


15.7 


Xz1.960,=4.5+(1.960.6)=< 


E 





Ahora bien, la distancia de un punto Á a un punto B es la misma que de B a A. Por esa razón, 
la distancia desde m a la Media muestral es la misma que va de la Media muestral a m. En 
consecuencia, si hacemos un muestreo con un número grande de muestras observamos que el 
95% de las veces (aproximadamente) el valor de la Media de la población (m) se encuentra 
dentro del intervalo definido alrededor de cada uno de los valores de la Media muestral. El 
porcentaje de veces que el valor de m se halla dentro de alguno de los intervalos de confianza 
es del 95%, y es denominado nivel de confianza. 


S1 queremos establecer un intervalo de confianza en que el % de veces que m se halle dentro 
del intervalo sea igual al 99%, la expresión anterior es: 





(Obtenemos el valor +-2.38 que multiplica la Desviación Típica de la distribución muestral 
en las tablas de la distribución Normal estandarizada o de funciones en aplicaciones 
informáticas como Excel), y son los valores cuya función de probabilidad es igual a 0.993 y 
0.005 respectivamente). 


Ejemplo 


La siguiente imagen muestra la distribución de las Medias muestrales obtenidas de 100000 
muestras aleatorias y los intervalos alrededor de cada una de las Medias obtenidas de diez de 
las muestras: 
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PA - OOOO Licairicivcitia . O 074. 


— AER 





Nueve de los diez intervalos (salvo el definido alrededor de la Media muestral igual a 3.7) 
incluyen el valor del parámetro dentro sus límites. 


9.4, 


Una sola muestra estimación de la media 


La distribución muestral de X está centrada en pi y en la mayoría de las aplicaciones la 
varianza es más pequeña que la de cualesquiera otros estimadores de 1. Por lo tanto, se 
utilizará la media muestral $ como una estimación puntual para la media de la población 
11. Recuerde que o; =0/n, por lo que una muestra grande producirá un valor de X 
procedente de una distribución muestral con varianza pequeña. Por consiguiente, es pro- 
bable que Y sea una estimación muy precisa de i cuando n es grande. 

Consideremos ahora la estimación por intervalos de 1. 51 seleccionamos nuestra 
muestra a partir de una población normal o, a falta de ésta, si n es suficientemente gran- 
de, podemos establecer un intervalo de confianza para 4 considerando la distribución 
muestral de X. 


De acuerdo el teorema del límite central, podemos esperar que la distribución 
muestral de X esté distribuida de forma aproximadamente normal con media 41 =p4 y 
desviación estándar TF = oy n. Al escribir 2,2 Para el valor z por arriba del cual 
encontramos una área de 9/2 bajo la curva normal, en la figura 9.2 podemos ver que 


P(—Zaj2 EL< Zaj2)= il —«ex, 





o EA 
Z= aji 


En consecuencia, 


X —u | 
Pp (mao X= a/yn X= taja) =1-—a. 





Figura 9.2: PE AA Zap) =l-a 


$1 multiplicamos cada término en la desigualdad por oAn y después restamos X de 
cada término, y en seguida multiplicamos por — 1 (para invertir el sentido de las des- 
igualdades), obtenemos 


o Ñ ] 
P ( — Zaf2 <H<X +20/2 


ya 


= | — ar. 





2 
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Intervalo 

de confianza 
de 1 cuando se 
conoce q” 
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Se selecciona una muestra aleatoria de tamaño nr de una población cuya varianza (7* se 


conoce y se calcula la media í para obtener el intervalo de confianza 100(1 — (1)%. Es 


importante enfatizar que al teorema del límite central citado anteriormente. 
Como resultado, es importante observar las condiciones para las aplicaciones que siguen. 


S1 es la media de una muestra aleatoria de tamaño a de una población de la que se co- 
noce su varianza 07, lo que da un intervalo de de 1001 — 09% para pu es 


a 
Y la j2 E ZpE<xt+za> 


ya vi 


donde z,,, es el valor z que deja una área de 4/2 a la derecha. 


En el caso de muestras pequeñas que se seleccionan de poblaciones no normales, no 


podemos esperar que nuestro grado de confianza sea preciso. 51n embargo, para muestras 


de tamaño 1 => 30, en las que la forma de las distribuciones no esté muy sesgada, la teo- 
ría de muestreo garantiza buenos resultados. 

Queda claro que los valores de las variables aleatorias Ó, y 6... las cuales se defi- 
mnieron en la sección 9.3, son los límites de confianza 


ar a or 


Ó =% 2012: 7 y ¿a 7 


Muestras diferentes producirán valores diferentes de x y, por lo tanto, producirán dife- 
rentes estimaciones por intervalos del parámetro ff, como se muestra en la figura 9.3. Los 
puntos en el centro de cada intervalo indican la posición de la estimación puntual x para 
cada muestra aleatoria. Observe que todos los intervalos tenen el mismo ancho, pues 
esto depende sólo de la elección de z, ¡y Una vez que se determina £. Cuanto más grande 
sea el valor de z, ¡Que elijamos, más anchos haremos todos los intervalos, y podremos 
tener más confianza en que la muestra particular que seleccionemos producirá un inter- 
valo que contenga el parámetro desconocido 1. En general, para una elección de 2, pe 
100(1 — 0% de los intervalos contendrá pu. 


S 
. 























Muestra 


»* 
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Límites de confianza unilaterales 

Los intervalos de confianza y los límites de confianza resultantes que hasta ahora hemos 
analizado en realidad son bilaterales, es decir, tenen límites superior e inferior. 5in em- 
bargo, hay muchas aplicaciones en las que sólo se requiere un límite. Por ejemplo, si a 
un ingeniero le interesara determinar una medida de resistencia a la tensión, la informa- 
ción que más le ayudaría a lograr su objetivo sería la del límite inferior, ya que éste indi- 
ca el escenano del “peor caso”, es decir, el de la menor resistencia. Por otro lado, si se 
buscara determinar una medida para la cual un valor de 1 relativamente grande no fuera 
redituable o deseable, entonces la medida que resultaría de interés sería la del límite de 
confianza superior. Un ejemplo en el que la medida del limite superior sería muy infor- 
mativa es el caso en el que se necesita hacer inferencias para determinar la composición 
media de mercurio en el agua de un río. 

Los límites de confianza unilaterales se desarrollan de la misma forma que los inter- 
valos bilaterales. Sn embargo, la fuente es un enunciado de probabilidad unilateral que 
utiliza el teorema del límite central: 


Entonces, es posible manipular el enunciado de probabilidad de forma muy similar a 
como se hizo anteriormente para obtener 

Pip > XxX — 24 0/1) =l|-—«. 
Una manipulación similar de P (2% > 20) =1—a da 

Pip <X + 2240/51) =1—a. 


Como resultado, se obtienen los siguientes límites unilaterales superior e inferior. 





Límites Si X es la media de unacmuestra aleatoria de tamaño n a partir de una población con 

de confianza varianza (77, los límites de confianza unilaterales del 1001 — 09% para U son dados por 
unilaterales de Hu 
cuando se conoce 
el valor de q? límite unilateral inferior: Xx —24¿0/yhn. 


límite unilateral superior: 3 +20240/4n: 





El caso en que se desconoce 
Con frecuencia debemos tratar de estimar la media de una población sin conocer la va- 
ranza. El lector debería recordar que en el capítulo 8 aprendió que, si tenemos una 
muestra aleatoria a partir de una distribución normal, entonces la variable aleatoria 


X —p 
5/y/n 


tiene una distribución f de Student con n— 1 grados de libertad. Aqui 4 es la desviación 
estándar de la muestra. En esta situación, en la que se desconoce (€, se puede utilizar F 
para construir un intervalo de confianza para £ El procedimiento es igual que cuando se 
conoce €, sólo que en este caso d se reemplaza con $ y la distribución normal estándar 
se reemplaza con la distribución £ 51 nos remitimos a la figura 9.5, podemos afirmar que 


Tr = 





Pí—taf2 €T< la/2) =1—0, 


donde 1, ¿es el valor £con n— 1 grados de libertad, por arriba del cual encontramos una 
área de 0/2. Debido a la simetría, un área igual de 4/2 caerá a la izquierda de —1_.. Al 


aj 
sustituir por 7 escribimos 


P (—to72 = S TI <taj2)= l— a 
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Al multiplicar cada término en la desigualdad por 5/.n y después restar X de cada tér- 
mino y multiplicar por —1, obtenemos 





_ 5 _ 5 ke 
Pp (x — laja= Ep<EX + faja )=1-a 
yn ya, 


Para nuestra muestra aleatoria particular de tamaño nr se calculan la media x y la desvia- 
ción estándar s, y se obtiene el siguiente intervalo de confianza 100(1 — 010% para pu. 


| 
| 
| 
1 | 
| 
| 





Figura 9.5: PA, ET <1 > =1-a 


Intervalo de 51 x y 5 son la media y la desviación estándar de una muestra aleatoria de población 
confianza para 1 normal de la que se desconoce la varianza (-, un intervalo de confianza del 100(1 — (1)% 
cuando se para ies 
desconoce (* . 


x 2 <p.p<x Hoja 


donde fa ES el valor £ con y = n— 1 grados de libertad que deja una área de 0/2 a la 


Hicimos una distinción entre los casos en los que se conoce € y en los que se des- 
conoce calculando las estimaciones del intervalo de confianza. Deberíamos resaltar que 
para el caso en que se conoce E se utiliza el teorema del límite central, mientras que, para 
el caso en que se desconoce, se usa la distribución muestral de la variable aleatoria 7. Sin 
embargo, el uso de la distribución f se basa en la premisa de que el muestreo es de una 
distribución normal. Siempre que la forma de la distribución se aproxime a la de campa- 
na, se puede utilizar la distribución f para calcular los intervalos de confianza cuando se 
desconoce 7, y se pueden esperar muy buenos resultados. 

Los límites de confianza unilaterales calculados para pl desconocida son como 
el lector esperaría, a saber: 


e 5 
Xx+it 


77 y x—Ía JA 


Éstos son, respectivamente, los límites superior e inferior del 100(1 — (0)%. Aqui t_ es el 
valor í que tiene una área de a la derecha. 
Concepto de intervalo de confianza para una muestra grande 


Con frecuencia los estadísticos recomiendan que incluso cuando no sea posible suponer 
la normalidad, se desconozca (yn 2 30, O se puede reemplazar con 5 para poder utilizar 
el intervalo de confianza 


_ 5 
Xi lapa 
A 
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A menudo se hace referencia a esto como un intervalo de confianza para una muestra 
grande. La justificación para esto reside sólo en la presunción de que, con una mues- 
tra tan grande como 30 y una distribución de la población no muy sesgada, y estará muy 
cerca de la Y verdadera y, de esta manera, el teorema del límite central continuará siendo 
válido. Se debería destacar que esto es sólo una aproximación y que la calidad de los 
resultados mejora a medida que aumenta el tamaño de la muestra. 


9.5, — Error estándar de una estimación puntual 


Hicimos una distinción muy clara entre los objetivos de las estimaciones puntuales y las 
estimaciones del intervalo de confianza. Las primeras proporcionan un solo número que 
se extrae de un conjunto de datos experimentales, y las segundas proporcionan un inter- 
valo razonable para el parámetro, dados los datos experimentales; es decir, 100(1 — (1)% 
de tales intervalos que se calcula “cubren” el parámetro. 

Estos dos métodos de estimación se relacionan entre sí. El elemento en común es la 
distribución muestral del estimador puntual. Considere, por ejemplo, el estimador X de 
pi cuando se conoce E. Indicamos antes que una medida de la calidad de un estimador 
insesgado es su varianza. La varianza de X es 


ai 
Y a] 


=|9 


De esta forma, la desviación estándar de X 0 error estándar de X es of Jn. En términos 
simples, el error estándar de un estimador es su desviación estándar. Para el caso de X' el 
límite de confianza que se calcula 


ya 
donde “e.e.” es el error estándar. El punto importante es que el ancho del intervalo de 
confianza de ui depende de la calidad del estimador puntual a través de su error estándar. 
En el caso en que se desconoce € y la muestra proviene de una distribución normal, 
5 reemplaza a O y se incluye el error estándar estimado 3 ¿én. Por consiguiente, los lí- 


xi Zaf2 





se escribe como E +2, 12 8.e.(5), 





Límites de 





confianza para fl Xhtlaf =X Elfo e.e(1) 
cuando se yn 
desconoce 
De nuevo, el intervalo de confianza no es mejor (en términos de anchura) que la calidad 


de la estimación puntual, en este caso a través de su error estándar estimado. A menudo 
el software de computación se refiere a los errores estándar estimados simplemente 

A medida que avanzamos a intervalos de confianza más complejos, prevalece el 
concepto de que el ancho de los intervalos de confianza se acorta cuando mejora la cali- 
dad de la estimación puntual correspondiente, aunque no siempre es tan sencillo como 
aqui se ilustra. 5e puede argumentar que un intervalo de confianza es tan sólo una am- 
pliación de la estimación puntual para tomar en cuenta la exactitud de dicha estimación. 
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9.6. Intervalos de tolerancia 


La estimación puntual y la estimación por intervalos de la media que se expusieron 
en las secciones 9.4 y 9.5 proporcionan buena información del parámetro desconocido pl 
de una distribución normal, o de una distribución no normal a partir de la cual se toma 
una muestra grande. Algunas veces, además de la media de la población, el experimen- 
tador podría estar interesado en predecir el valor posible de una observación futura. 
Por ejemplo, en el control de calidad el expermentador podría necesitar utilizar los datos 
observados para predecir una nueva observación. Un proceso de manufactura de una 
pleza de metal se podria evaluar basándose en si la pieza cumple con las especificaciones 
de resistencia a la tensión. En ciertas ocasiones un cliente podría estar interesado en 
comprar una sola pieza. En este caso un intervalo de confianza de la resistencia media a 
la tensión no cubriría la información requerida. El cliente necesitaria una aseveración 
respecto a la incertidumbre de una sola observación. Este tipo de requerimiento se sa- 
tisface muy bien construyendo un intervalo de predicción. 

Es muy sencillo obtener un intervalo de predicción para las situaciones que hemos 
considerado hasta el momento. Suponga que la muestra aleatoria se tomó de una pobla- 
ción normal con media i desconocida y vananza €* conocida. Un estimador puntual 
natural de una nueva observación es X. En la sección 8.4 se aprendió que la varianza de 
X es 07/n. Sin embargo, para predecir una nueva observación no basta con explicar la 
variación debida a la estimación de la media, también tendriamos que explicar la varia- 
ción de una observación futura. Á partir de la suposición sabemos que la varianza del 


error aleatorio en una nueva observación es 07. El desarrollo de un intervalo de predic- 
ción se representa mejor empezando con una variable aleatoria normal x, — X, donde x,, 
es la nueva observación y X se toma de la muestra. Como x, y Y son independientes, sa- 
bemos que 

Xo —X _ Xo—X 


—yjar+ada oy l+ 1 


Ed 
de 


es nz; 0, 1). Como resultado, sí utilizamos el enunciado de probabilidad 
Pl—Zapa £L£ < 242) = 1-0 


con el estadístico z anterior, y s1 colocamos x, en el centro del enunciado de probabil1- 
dad, tenemos que la probabilidad de que ocurra el siguiente evento es 1 — dr 


Ñ — 2/20 1 + 1/n < xp <X +2Za/20y 1 +1/m. 


Como resultado, el intervalo de predicción calculado se formaliza como sigue. 


Intervalo de Para una distribución normal de mediciones con media £ desconocida y varianza (7 
predicción para conocida, un intervalo de predicción del 100(1 — 013% de una observación futura x, es 
una observación 
futura cuando se kx — Zap 0 y 1+1 [n <xp <x + Zajp2 0/1 +1n, 
conoce 7” 


donde 7, ,, es el valor z que deja una área de 0/2 a la derecha. 


Uso de límites de predicción para detectar valores extremos 
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Hasta el momento hemos puesto poca atención al concepto de valores extremos u ob- 
servaciones aberrantes. La mayoria de los investigadores científicos son muy sensibles a 
la existencia de observaciones de valores extremos, también llamados datos defectuosos 
o “malos”. En el capítulo 12 profundizaremos en el estudio de este concepto. Sin em- 
bargo, nos interesa considerarlos aquí porque la detección de los valores extremos está 


estrechamente relacionada con los intervalos de predicción. 


Para nuestros propósitos nos conviene considerar que una observación extrema es 
una que proviene de una población con una media diferente a la que determina el resto 
de la muestra de tamaño a que se está estudiando. El intervalo de predicción produce un 
límite que “cubre” una sola observación futura con probabilidad 1 — ex, sí ésta proviene 
de la población de la que se tomó la muestra. Por lo tanto, una metodología para detectar 
valores extremos implica la regla de que una observación es un valor extremo si cae 
fuera del intervalo de predicción calculado sin incluir la observación cuestionable 
en la muestra. Como resultado, para el intervalo de predicción del ejemplo 9.5, en el 
caso de los paguetes de carne, la observación que se obtiene al medir un nuevo paquete 
y encontrar que su contenido libre de grasa está fuera del intervalo (93.96, 95.44) se 


podría considerar como un valor extremo. 


9.7. Límites de tolerancia 


Como vimos en la sección 9.6, el científico o el ingeniero podrían estar menos interesa- 
dos en estimar parámetros que en obtener información sobre el lugar en el que caería una 
observación o medición individual. Este tipo de situaciones requiere intervalos de pre- 
dicción. Sn embargo, existe un tercer tipo de intervalo que es útil en muchas aplicacio- 
nes. Una vez más, suponga que el interés se centra en torno a la fabricación de la pieza 
de un componente y que existen especificaciones sobre una dimensión de esa parte. 
Además, la media de esa dimensión no es tan importante. 51n embargo, a diferencia del 
escenario de la sección 9.6, se podría estar menos interesado en una sola observación y 
más en el lugar en el que cae la mayoría de la población. 51 las especificaciones del pro- 
ceso son importantes, el administrador del proceso se interesará en el desempeño a largo 
plazo, no en la siguiente observación. Debemos tratar de determinar los límites que, en 
cierto sentido probabilístico, “cubren” los valores en la población, es decir, los valores 


medidos de la dimensión. 


Un método para establecer el límite deseado consiste en determinar un intervalo de 
confianza sobre una proporción fija de las mediciones. Esto se comprende mejor visua- 
lizando una situación en la que se realiza un muestreo aleatorio de una distribución 
normal con conocida iy varianza 07. Evidentemente, un límite que cubre el 95% 


central de la población de observaciones es 


u + 1.960. 


A esto se le llama intervalo de tolerancia y, en realidad, su cobertura del 95% de las 
observaciones medidas es exacta. Sin embargo, en la práctica rara vez se conocen iy a; 


por consiguiente, el usuario debe aplicar 


xXx +ks. 


Ahora bien, el intervalo es, desde luego, una variable aleatoria, por lo tanto, la cobertura 
de una proporción de la población por el intervalo no es exacta. Como resultado, se debe 
usar un intervalo de confianza del 100(1 — y/%, ya que no se puede esperar que + ks 
cubra cualquier proporción especifica todo el tiempo. Lo anterior nos lleva a la siguiente 


definición. 


Límites de Para una distribución normal de mediciones en la que se desco 
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oce la media e y la des- 


tolerancia viación estándar a, los límites de tolerancia son dados por í + £s, donde k se determina 
de tal manera que se pueda estar seguro, con un 100(1 — -y1% de confianza, de que los 
límites dados contienen al menos la proporción 1 — €] de las mediciones. 





La tabla A.7 ofrece valores de £ para 1 — a = 0.90, 0.95, 0.99; y = 0.05, 0.01; y para 


valores seleccionados de » de 2 a 300. 


Diferencia entre intervalos de confianza, intervalos 
de predicción e intervalos de tolerancia 


9.8. 


Es importante resaltar la diferencia entre los tres tipos de intervalos que se estudiaron e 
lustraron en las secciones anteriores. Los cálculos son sencillos, pero la interpretación 
podría resultar confusa. En aplicaciones de la vida real tales intervalos no son intercam- 
biables, ya que sus interpretaciones son muy diferentes. 

En el caso de los intervalos de confianza sólo se pone atención en la media de la 
población. Por ejemplo, el ejercicio 9.13 de la página 283 se refiere a un proceso de 
ingeniería que produce alfileres para costura. 5e establece una especificación sobre la 
dureza de Rockwell por debajo de la cual el cliente no aceptará ningún alfiler. En este 
caso un parámetro de la población debe tener poca relevancia. Es importante que el 
ingeniero sepa en dónde van a estar la mavoría de los valores de la dureza de Rockwell 
Por consiguiente, se deberian utilizar los límites de tolerancia. Seguramente, al adminis- 
trador le agradará saber que los límites de tolerancia en cualquier producto del proceso 
son más ngurosos que las especificaciones para el propio proceso. 

Es verdad que la interpretación del límite de tolerancia se relaciona hasta cierto 
punto con el intervalo de confianza. El intervalo de tolerancia del 100(1 — 0% sobre, 
digamos, la proporción 0.95, se podria considerar como un intervalo de confianza sobre 
el 95% intermedio de la distribución normal correspondiente. Los límites de toleran- 
cia unilaterales también son relevantes. En el caso del problema de dureza de Rockwell 
se desearia tener un límite inferior de la forma x— ks, tal que se tenga un 99% de con- 
fianza en que al menos 99% de los valores de la dureza de Rockwell excederán al valor 
calculado. 

Los intervalos de predicción se pueden aplicar cuando es importante determinar un 
límite para un solo valor. Aquí la media no es la cuestión, ni tampoco la ubicación de la 
mayoría de la población, lo que se requiere, más bien, es la ubicación de una sola nueva 
observación. 


Dos muestras estimación de la diferencia entre 2 medias 


51 tenemos dos poblaciones con medias 1, y fL,, y varianzas oí y 05 3, respectivamente, 


el estadistico que da un estimador puntual de la diferencia entre 1, y yu, eS X, — —X, Por 
lo tanto, para obtener una estimación puntual de 1, — pl, se seleccionan dos muestras 
aleatorias independientes, una de cada población, de tamaños n, y A, y se calcula Y, 
la diferencia de las medias muestrales. Evidentemente, debemos considerar la distribu, 
ción muestral de Xx, — XxX, 

De acuerdo con el teorema 8.3, podemos esperar que la distribución muestral de 
X, — —X esté distribuida de forma aproximadamente normal con media Hz 7, = Mi — ha 
y desviación estñadar Fi, = y 07m +05 (12. Por lo tanto, podemos asegurar, 
con una probabilidad de 1 — €, que la variable normal estándar 


7= (Xy —X 2) — (1 — a) 
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caerá entre — Tap Y Tapz $1 nos remitimos una vez más a la figura 9.2, escribimos 
P(—2g/2 <Z < 2a/2)=1-4. 


Al sustituir para Z, establecemos de manera equivalente que 
| (1 —X 2) — (ps — Ha 
Pp (o: z (0) —X2) — (4 — a) < Za/2 ) =1l-—«, 


am + ma 
que conduce al siguiente intervalo de confianza del 100(1 — 0% para 4, — 4. 





Intervalo de 51 1, y £, son las medias de muestras aleatorias independientes de tamaños 1, y A, 
confianza para de poblaciones. que tienen varianzas conocidas oí y a5. Te pectivamente, un intervalo de 
u, _ pa, cuando confianza del 10011 — ax) Ue para ui, - tl, es dado por 

se conocen _—— n= ; 








- JA: ad CN lA, a 
0] Y 07 130 20121) 7, + St — Ha dai En — a 
m1 2 


donde 71 85 el valor z que deja una área de 0/2 a la derecha. 


El grado de confianza es exacto cuando las muestras se seleccionan de poblaciones 
normales. Para poblaciones no normales el teorema del límite central permite una buena 
aproximación para muestras de tamaño razonable. 


9.9, Observaciones pareadas 


Ahora estudiaremos los procedimientos de estimación para la diferencia de dos medias 
cuando las muestras no son independientes y las varianzas de las dos poblaciones no son 
necesanamente iguales. La situación que se considera aquí tiene que ver con una condi- 
ción experimental muy especial, a saber, las observaciones pareadas. Á diferencia de la 
situación que se describió antes, las condiciones de las dos poblaciones no se asignan de 
forma aleatoria a las unidades experimentales. Más bien, cada unidad experimental 
homogénea recibe ambas condiciones de la población; como resultado, cada unidad ex- 
permental tiene un par de observaciones, una para cada población. Por ejemplo, si rea- 
lizamos una prueba de una nueva dieta con 15 individuos, los pesos antes y después de 
seguir Ea dieta conforman la información de las dos muestras. Las dos poblaciones son 

“antes” y “después”, y la unidad experimental es el individuo. Evidentemente, las obser- 
vaciones en un par tienen algo en común. Para determinar si la dieta es efectiva conside- 
ramos las diferencias dl, d,,..., dl, en las observaciones pareadas. Estas diferencias son los 
valores de una muestra aleatoria DD. D..... D_ de una población de diferencias, que su- 
pondremos distribuidas aoenilaacnís, con media PB, = 4, —[l, y varianza op. Estimamos 
ob mediante s3, la varianza de las diferencias que constituyen nuestra muestra. El esti- 
mador puntual de 1, es dado por D 


¿Cuándo debe hacerse el pareado? 


Parear observaciones en un expenmento es una estrategia que se puede emplear en muchos 
campos de aplicación. $e expondrá al lector a tal concepto en el material relacionado con 


la prueba de hipótesis en el capítulo 10 y en los temas de diseño experimental en los 
capitulos 13 y 15. Al seleccionar unidades experimentales relativamente homogéneas 
(dentro de las unidades) y permitir que cada unidad experimente ambas condiciones de 
la población, se reduce la varianza del error experimental efectiva (en este caso 55). El 
lector puede visualizar la ¡-¿sima diferencia del par como 
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la prueba de hipótesis en el capítulo 10 y en los temas de diseño experimental en los 
capítulos 13 y 15. Al seleccionar unidades experimentales relativamente homogéneas 
(dentro de las unidades) y permitir que cada unidad experimente ambas condiciones de 
la población, se reduce la varianza del error experimental efectiva (en este caso o). El 
lector puede visualizar la 1-¿sima diferencia del par como 


D'; =X —X 3. 


Como las dos observaciones se toman de la unidad experimental de la muestra no son 
independientes y, de hecho, 


Var(D;) = Vai X 1; —X 35) = 07 +05-2CovíX 15. X 3). 


Entonces, de manera intuitiva, se espera que A debería reducirse debido a la similitud 
en la naturaleza de los “errores” de las dos observaciones dentro de una unidad experl- 
mental, a lo cual se llega mediante la expresión anterior. En realidad se espera que, si la 
unidad es homogénea, la covarianza sea positiva. Como resultado, la ganancia en calidad 
del intervalo de confianza sobre la que se obtuvo sin parear es mayor cuando hay homo- 
geneidad dentro de las unidades y cuando las diferencias grandes van de una a otra uni- 
dad. Se debería tener en cuenta que el desempeño del intervalo de confianza dependerá 
del error estándar de D, que es, por supuesto, Tp] Jn , donde n es el número de pares. 
Como indicamos antes, la intención al parear es reducir O... 


Equilibrio entre reducir la varianza y perder grados de libertad 


Al comparar los intervalos de confianza obtenidos con y sin pareado es evidente que hay 
un intercambio implicado. Aunque en realidad el pareado debería reducir la varianza 
y, por lo tanto, el error estándar de la estimación puntual, los grados de libertad disminuyen 
al reducir el problema a uno con una sola muestra. Como resultado, el punto £, Ja ligado al 
error estándar se ajusta en concordancia. De esta manera, el pareado podría resultar con- 
traproducente. Esto ocurnría con certeza s1 se experimenta sólo una reducción modesta 
en la varianza (a través de 05) mediante el pareado. 

Otra ilustración del pareado implicaría elegir n pares de sujetos, donde cada par 
tenga una característica similar, como el coeficiente intelectual (CD), la edad o la raza, y 
luego para cada par seleccionar un miembro al azar para obtener un valor de X,, dejando 
que el otro miembro proporcione el valor de X,. En este caso, X, y X, podrían representar 
las calificaciones obtenidas por dos individuos con igual Cl cuando uno es asignado al 
azar a un grupo que usa el método de enseñanza convencional y al otro a un grupo que 
utiliza materiales programados. 

Se puede establecer un intervalo de confianza del 1001 — 0% para 4, escribiendo 





Pí—Ha/2 <= T = laj2) = 1 — Dr, 


a = 3 y 1, ¿2 Como antes, es un valor de la distribución f con 1 — 1 grados de 
¡bertad. 





En la actualidad se acostumbra reemplazar Y por su definición en la desigualdad 
anterior y desarrollar los pasos matemáticos que conduzcan al siguiente intervalo de 
confianza del 100(1 — 01)% para 1, — 1, =p. 
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Intervalo de Sid y s,son la media y la desviación estándar, respectivamente, de las diferencias distri- 
confianza para buidas normalmente de » pares aleatorios de mediciones, un intervalo de confianza del 
A, = 4, - A, para 100(1 — a) para 4,, = UH, — H, es 


observaciones 


- Sa - Sd 
pareadas d — tj 57 pj, E d+ baja wo 


donde £, es el valor £ con v = 1-1 grados de libertad, que deja una área de 9/2 a la 


9.10. Una sola muestra estimación de una proporción 


El estadístico P = Xn, en donde X representa el número de éxitos en n ensayos, provee 
un estimador puntual de la proporción p en un experimento binomial. Por lo tanto, la 
proporción de la muestra P = xn se utilizará como el estimador puntual del parámetro p. 

$1 no se espera que la proporción p desconocida esté demasiado cerca de O o de |, 
se puede establecer un intervalo de confianza para p considerando la distribución mues- 
tral de P. 51 en cada ensayo binomial asignamos el valor O a un fracaso y el valor 1 a un 
éxito, el número de éxitos, x, se puede interpretar como la suma de a» valores que consta 
sólo de ceros y unos, y pes sólo la media muestral de esos n valores. En consecuencia, 
por el teorema del límite central, para / suficientemente grande P está distribuida de 
forma casi normal con media 


e X np 
up (Pi) (+) A” =P 





y 
222 _% _ "Pq _ Pg 
yl dead iaa al ia 


E 


Por lo tanto, podemos afirmar que 


P-P 

vpq/ 

Y Zp¡2 85 el valor por arriba del cual encontramos una área de 4/2 debajo de la curva 
normal estándar. Al sustituir para Z escribimos 





Pi—Za/2 LL € Za/2) =1-—a con Z = 


| pp 
P | za < EZ A < taa | = 1-0 
ypg/n | 


Cuando nes grande se introduce un error muy pequeño sustituyendo el estimado puntual 
p = xn para la p debajo del signo de radical. Entonces podemos escribir 


e a 


F Pd 5 ¡Pa 
P|P—2Z 072 ya <p<P +2Zap2 " | == 1—«a 


Por otro lado, al resolver para p en la desigualdad cuadrática anterior, 


P Pp 
Tiapa * + *1lajf1> 
dr | pgín ar 


obtenemos otra forma del intervalo de confianza para p con los siguientes límites: 


E E pS zz. 
PF 4 —5 Va $ A 
I+ Eafz 1+ Sajr n Am? 


Para una muestra aleatoria de tamaño n se calcula la proporción muestral p = xn y se 
pueden obtener los siguientes intervalos de confianza aproximados del 10(X 1 —(1)% para p. 


Intervalos de 


confianza para 


p de una muestra 


9.11. 


grande 
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Si p es la proporción de éxitos en una muestra aleatoria de tamaño a, y G = 1 — p, un 
intervalo de confianza aproximado del 100(1 — (1% para el parámetro binomial p se 
obtiene por medio de (método 1) 

En En 





ú rpg á Pg 
Pta y <P SPAN 
o mediante (método 2) 
E ni nn 
+ Zap Zara nó Zn ¡Pia Zap 160 Zar 
e A q A 2 
14 Ln 14 == NM dn* 14 14 X= 1? dn* 


donde z, ya es el valor z que deja una área de 0:/2 a la derecha. 


Cuando n es pequeña y se cree que la proporción desconocida p se acercaiaUDoal, 
el procedimiento del intervalo de confianza que se establece aquí no es confiable y, por 
lo tanto, no se debería emplear. Para estar seguros se requiere que tanto 1 p como ng sean 
mayores que o iguales a 5. Los métodos para calcular un intervalo de confianza para el 
parámetro binomial p también se pueden aplicar cuando se está utilizando la distribución 
binomial con el fin de aproximar la distribución hipergeométrica; es decir, cuando n es 
pequeña respecto a Ñ', como se ilustra en el ejemplo 9.14. 

Observe que, aungue el método 2 produce resultados más precisos, su cálculo es 
más complicado, y la ventaja en precisión que brinda disminuye cuando el tamaño de la 
muestra es lo suficientemente grande. Debido a esto en la práctica es más común utilizar 
el método 1. 


Dos muestras estimación de la diferencia entre dos proporciones 


Considere el problema en el que se busca estimar la diferencia entre dos parámetros b1- 
nomiales p, y p,. Por ejemplo, p, podría ser la proporción de fumadores con cáncer de 
pulmón y p, la proporción de no fumadores con cáncer de pulmón, y el problema consis- 
tiría en estimar la diferencia entre estas dos proporciones. Primero seleccionamos 
muestras aleatorias independientes de tamaños n, y n, a partir de las dos poblaciones 
binomiales con medias 1,P, Y Ap,, Y VAaTrlanzas 1,p,q, Y 18,9, Tespectivamente, después 
determinamos los números x, y x, de personas con cáncer de pulmón en cada muestra, y 
formamos las proporciones p, =x,(n y p,= x,fn. El estadístico P, — P, provee un esti- 
mador puntual de la diferencia entre las dos proporciones, p, — p,- Por lo tanto, la dife- 
rencia de las proporciones muestrales, P, — f,, se utilizará como la estimación puntual de 
P, Ps 

Se puede establecer un intervalo de confianza para p, — p, considerando la distribu- 
ción muestral de P,- P,. De la sección 9.10) sabemos que P, y P, están distribuidos cada 
uno de forma aproximadamente normal, con medias p, y p,. y varianzas p q,(n, y pq, 
n, respectivamente. Al elegir muestras independientes de las dos poblaciones nos asegu- 
ramos de que las variables P, y P, serán independientes y luego, por la propiedad repro- 
ductiva de la distribución normal que se estableció en el teorema 7.11, concluimos que 
P, — P, está distribuido de forma aproximadamente normal con media 


Hp, —Pa == P; e Ps 


y varianza 








Por lo tanto, podemos asegurar que 


Pl—=Za/2 ££ <2Zlaq2)=1—% 
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donde 


(Pr — Po) — (pi —p2) 


£= 
Piqu/n + paqa/na 














Y 2, €5 UN valor por arriba del cual encontramos una área de 1/2 debajo de la curva 
normal estándar. Al sustituir para Z escribimos 


(P, — Ps) — (pi —p2) 


Pp —ilaf? = 
e piqn mi + paqp 


<laj2 | =1—a. 





Después de realizar las operaciones matemáticas usuales reemplazamos P+Py4, 
y 4, bajo el signo de radical por sus estimaciones Pp, =x,/n,,p,=x,/n, 4, =1-— Pp, y 
q, = 1 — P.,, siempre y cuando 1,P.1,9,,1,P, y 1,q, sean todas mayores que o iguales a 
3, y se obtiene el siguiente intervalo de confianza aproximado del 100(1 —0)% para p, — p,. 


Intervalo de 51 P, y P, son las proporciones de éxitos en muestras aleatorias de tamaños n, y A,,Tes- 
confianza para pectivamente, d, = 1 - P, y d, = l -— Pa un intervalo de confianza aproximado del 
p, - p, de una 100(1 — 013% para la diferencia de dos parámetros binomiales p, — p, es dado por 
muestra grande 
a _ ¡pan | Po 
< py —p2 < (Pi P2)+ 2aJ24 A + a" 


ON 
(pr — fp») — 2/24, a =Z q 





donde z, ¡185 el valor z que deja una área de 0/2 a la derecha. 


9.12. una sola muestra estimación de la varianza 


Si extraemos una muestra de tamaño n de una población normal con varianza 07 y cal- 
culamos la varianza muestral +, obtenemos un valor del estadístico 5%, Esta varianza 
muestral calculada se utiliza una estimación puntual de er*. En consecuencia, al 
estadístico $7se le denomina estimador de 7? 

5e puede establecer una estimación por intervalos de 0'*utilizando el estadístico 


E CENTSA 

p. 
De acuerdo con el teorema 8.4, cuando las muestras se toman de una población normal 
el estadístico “tiene una distribución chi cuadrada con n — 1 grados de libertad. Pode- 
mos escribir (véase la figura 9.7) 


P(Xi_aJ2 <xX< aa) =1-a, 
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Xi-aj Xaj2 


Figura 9.7: P(xG_a p< xX< xap)=1-a 


donde ia y Xa2 son valores de la distribución chi cuadrada con n— 1 grados de 
libertad, que dejan áreas de | — 0/2 y 0/2, respectivamente, a la derecha. Al sustituir 
para X* escribimos 

P ios E == <Xap =1-—«ir 
51 dividimos cada término de la desigualdad entre (1 — 1957, y después invertimos cada 
término (lo que cambia el sentido de las desigualdades), obtenemos 
' = 115? Ñ ín — 115? 
(1-1 ) cp HTA ) | = l-—«(r 


5 Pl sd cial 
Xaj2 Al—af? 





Para una muestra aleatona de tamaño a, tomada de una población normal, se calcula la va- 
ranza muestral + y se obtiene el siguiente intervalo de confianza del 10(X 1 — 01% para 077. 


Intervalo de 51 ses la varianza de una muestra aleatoria de tamaño a de una población normal, un 
confianza para 0? intervalo de confianza del 100(1 — 01% para 07 es 


(n — 1)5? pe ¿EA 
Xajz X1i- —a 2 
donde x.¿ 2 Y Xi-aja 900 valores x? con y =n— 1 grados de libertad, que dejan áreas 
de 1/2 e 2, respectivamente, a la derecha. 





Un intervalo de confianza aproximado a 1001 — 9% para € se obtiene tomando la 
raiz cuadrada de cada extremo del intervalo para (7. 


9.13, dos muestras estimación de la proporcion de dos varianzas 


Una estimación puntual de la proporción de dos varianzas de la población ai/03 es 
dada por la proporción s; (3 de las varianzas muestrales. En consecuencia, el estadístico 
51/53 se conoce como un estimador de 07:05. 

Si 0j y 03 son las varianzas de poblaciones normales, podemos establecer una es- 
timación por intervalos de 77/63 usando el estadístico 





De acuerdo con el teorema 8.8, la variable aleatoria F tiene una distribución F con v, = 
n,—l y y, =1,— 1 grados de libertad. Por lo tanto, podemos escribir (véase la figura 9.8) 


Plfi-ap2lVisV2d <F < fal vi,v2)] = 10, 


donde f, _ opa Yo Vd Y faja Vo v,) son los valores de la distribución F con v, y v, grados de 
libertad, que dejan áreas de l — 0/2 y 0/2, respectivamente, a la derecha. 


133 





0 haz fajz 


Figura 9.8: P[f¡_aya(vi, va) < F 8 fajalvi.va)]= 1 a. 


Al sustituir para £, escribimos 


así 


P lu-o/2(01,v2) == «< fajatri»vo| =1—a. 
015 





Si multiplicamos cada término de la desigualdad por 53/57, y después invertimos cada 
término, obtenemos 


5? ojos? 
P roo E |= ta 
Starr 2) 05 535 fi-aja (Wi, v2) 


Los resultados del toorema $. 108 permiten reemplazar la cantidad Í ma opa v,)por 
ff, ¿(V, v,). Por lo tanto, | 


5 1 or Sí 
P e ara la, =1-— a 
Esercros 05 ss 5 lajalvaro)] 


Para cualesquiera dos muestras aleatorias independientes de tamaño n, y 1, que se selec- 
cionan de dos poblaciones normales, se calcula la proporción de las varianzas muestrales 
51/53 y se obtiene el siguiente intervalo de confianza del 100(1 — 04)9 para 07/05. 


Intervalo de Sisi y 535 son las varianzas de muestras independientes de tamaño n, y A, Tespectiva- 
confianza para mente, tomadas de poblaciones normales, entonces un intervalo de confianza del 
0/0 10001 — 0% para 07/05 es 


si 1 a; 
a 


Ñ 
sí 

o rd e fa 2(v2, vi), 

S5fapalvi,va) 005 755 / 


donde f,,,(v, v,)es un valor fcon v, =1,—1 y v, =11,—1 grados de libertad que deja 
una área de 1/2 a la derecha, y f 


az 


(1, v,) es un valor fsimilar Y, =.n,- l y vr, =R, 
— |] os de libertad. 
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9.14. Estimación de la máxima verosimilitud (opcional) 


A menudo los estimadores de parámetros han tenido que recurrir a la intuición. El esti- 
mador X ciertamente parece razonable como estimador de una media de la población pu. 
La virtud de 47 como estimador de 0*se destaca en el estudio de estimadores insesgados 
de la sección 9.3. El estimador para un parámetro binomial p es simplemente una pro- 
porción de la muestra que, desde luego, es un promedio y recurre al sentido común. S51n 
embargo, hay muchas situaciones en las que no es del todo evidente cuál deberia ser el 
estimador adecuado. Como resultado, el estudiante de estadística tiene mucho que 
aprender respecto a las diferentes filosofías que producen distintos métodos de estima- 
ción. En esta sección estudiaremos el método de máxima verosimilitud. 

La estimación por máxima verosimilitud representa uno de los métodos de estima- 
ción más importantes en toda la estadística inferencial. No explicaremos el método de 
manera detallada; más bien, intentaremos transmitir la filosofía de la máxima verosimi- 
litud e ilustrarla con ejemplos que la relacionan con otros problemas de estimación que 
se examinan en este capítulo. 


Función de verosimilitud 


Como el nombre lo indica, el método de máxima verosimilitud es aquel para el que se 
maximiza la función de verosimilitud, lo cual se ilustra mejor con un ejemplo que inclu- 
ye una distribución discreta y un solo parámetro. Consideremos que XX... XA, son las 
vartables aleatorias independientes tomadas de una distribución de probabilidad discreta 
representada por fíx, 6), donde € es un solo parámetro de la distribución. Ahora bien, 


Definición 9.3: 
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es la distribución conjunta de las variables aleatorias, la cual a menudo se denomina 
función de probabilidad. Observe que la variable de la función de probabilidad es É, no 
Xx. Represente con X,, X,,..., £, los valores observados en una muestra. En el caso de una 
variable aleatoria discreta, la interpretación es muy clara. La cantidad Lx. Kronos 6, 
la verosimilitud de la muestra, es la siguiente probabilidad conjunta: 


P(X, =x1,A2 =X2,..., An =Xp 18). 


que es la probabilidad de obtener los valores muestrales x,, X.,,..., x,. Para el caso discre- 
to el estimador de máxima verosimilitud es el que da como resultado un valor máximo 
para esta probabilidad conjunta, o el que maximiza la probabilidad de la muestra. 

Considere un ejemplo ficticio en el cual se inspeccionan tres articulos que salen de 
una línea de ensamble. Los artículos se clasifican como defectuosos o no defectuosos, 
de manera que se aplica el proceso de Bernoulli. La inspección de los tres artículos da 
como resultado dos artículos no defectuosos seguidos por uno defectuoso. Nos interesa 
estimar p, la proporción de artículos no defectuosos en el proceso. La probabilidad de la 
muestra para este ejemplo es dada por 


p-p-q=p9=p"—P”, 
donde q = | —p. La estimación de máxima verosimilitud daría un estimado de p para el 
que se maximiza la verosimilitud. Resulta claro que si diferenciamos la verosimilitud 
respecto a p, Igualamos la derrvada a cero y la resolvemos, obtenemos el valor 
. 2 
Pp —_ q 


Entonces, desde luego, en esta situación p = 2/3 es la proporción muestral defec- 
tuosa y, por ello, un estimador razonable de la probabilidad de un articulo defectuoso. El 
lector debería intentar comprender que la filosofía de la estimación de máxima verosimi- 
litud proviene de la noción de que el estimador razonable de un parámetro que se basa 
en información muestral es el valor del parámetro que produce la mayor probabilidad 
de obtener la muestra. Ésta es, de hecho, la interpretación para el caso discreto, ya que 
la verosimilitud es la probabilidad de observar de manera conjunta los valores en la 
muestra. 


Dadas las observaciones independientes X., X,...., Xx, de una función de densidad de 
probabilidad (caso continuo) o de una función de masa de probabilidad (caso discreto) 
fía, €), el estimador de máxima verosimilitud H es el que maximiza la función de pro- 
babilidad 


L(x1,12,-- An =f(x,0) =f (1, Nf (12, 0) --f (Xp. 8). 


Muy a menudo conviene trabajar con el logaritmo natural de la función de verosi- 
militud para encontrar el máximo de esa función. Considere el siguiente ejemplo acerca 
del parámetro 4 de una distribución de Porsson. 
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Comentarios adicionales respecto a la estimación 

de máxima verosimilitud 
Un análisis detallado de las propiedades de la estimación de máxima verosimilitud está 
fuera del alcance de este libro y, por lo general, es un tema importante en un curso teórl- 
co de estadistica inferencial. El método de máxima verosimilitud permite al analista 
utilizar el conocimiento de la distribución para determinar un estimador adecuado. El 
método de máxima verosimilitud no se puede aplicar si ño se conoce la distribución 
subyacente. En el ejemplo 9.21 aprendimos que el estimador de máxima verosimilitud 
no necesariamente carece de sesgo. El estimador de máxima verosimilitud es insesgado 
asintóticamente 0 en el límite; es decir, la magnitud del sesgo se aproxima a cero a me- 
dida que la muestra se hace más grande. Al principio de este capítulo examinamos la 
noción de eficacia, que se vincula con la propiedad de la varianza de un estimador. Los 
estimadores de máxima verosimilitud tienen propiedades de varianza deseables en el 
límite. El lector debería consultar la obra de Lehmann y D' Abrera (1998) para más 
detalles. 


9.15. Posibles riesgos y errores conceptuales: relación con el material de otros 
capítulos 


El concepto de intervalo de confianza de muestra grande en una población a menudo 
confunde a los alumnos principiantes. Se basa en la idea de que incluso cuando se des- 
conoce d y no se está convencido de que la distribución que se muestrea es normal, se 
puede calcular un intervalo de confianza para fi a partir de 

Y 
En la práctica es común que se utilice esta fórmula cuando la muestra es demasiado 
pegueña. El origen de este intervalo de muestra grande es, por supuesto, el teorema del 





límite central (TLC), con el cual la normalidad no es necesaria. Aqui el TLC requiere 
una E conocida, de la cual s sólo es un estimado. Por lo tanto, 1 debe ser al menos tan 
grande como 30 y la distribución subyacente debe tener una simetría similar, en cuyo 
caso el intervalo sigue siendo una aproximación. 

Hay casos en que la aplicación práctica del material de este capítulo depende e 
gran medida del contexto especifico. Un ejemplo muy importante es el uso de la distri» 
bución f para el intervalo de confianza de 1 cuando se desconoce €. En términos estric- 
tos, el uso de la distribución £ requiere que la distribución de donde se toma la muestra 
sea normal. $5in embargo, es bien sabido que cualquier aplicación de la distribución / es 
razonablemente insensible, es decir, robusta, a la suposición de normalidad. Esto repre- 
senta una de esas situaciones afortunadas que ocurren con frecuencia en el campo de la 
estadistica, donde no se sostiene un supuesto básico y “¡todo resulta bien!” Sin embargo, 
la población de la que se toma la muestra no se puede desviar mucho de la normalidad. 
Por consiguiente, a menudo se recurrirá a las gráficas de probabilidad normal estudiadas 
en el capítulo 3 y las pruebas de bondad del ajuste que se presentarán en el capítulo 10 
para atribuir algún sentido de “cercanía a la normalidad”. Esta idea de “robustez a la 
normalidad” se volverá a presentar en el capítulo 10. 
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10. PRUEBAS DE HIPÓ TESIS DE UNA Y DOS MUESTRAS 


10.1. HIipó tesis estadística 


Como se expuso en el capítulo 9, a menudo el problema al que se enfrentan el cientifico 
o el ingeniero no es tanto la estimación de un parámetro de la población, sino la for- 
mación de un procedimiento de decisión que se base en los datos y que pueda producir 
una conclusión acerca de algún sistema científico. Por ejemplo, un investigador médico 
puede decidir con base en evidencia experimental si beber café incrementa el riesgo de 
cáncer en los seres humanos; un ingeniero quizá tenga que decidir con base en datos 
muestrales s hay una diferencia entre la precisión de un tipo de medidor y la de otro; o 
tal vez un sociólogo desee reunir los datos apropiados que le permitan decidir s1 el tipo de 
sangre y el color de ojos de un individuo son variables independientes. En cada uno 
de estos casos el cientifico o el ingeniero postulan o conjeturan algo acerca de un s1s- 
tema. Además, cada uno debe utilizar datos expermentales y tomar decisiones basadas 
en ellos. En cada caso la conjetura se puede expresar en forma de hipótesis estadística. 
Los procedimientos que conducen a la aceptación o al rechazo de hipótesis estadisticas 
como éstas comprenden una área importante de la inferencia estadística. Empecemos 
por definir con precisión lo que entendemos por hipótesis estadística. 


Definición 10.1: Una hipótesis estadística es una aseveración o conjetura respecto a una o más pobla- 


clones. 


La verdad o falsedad de una hipótesis estadística nunca se sabe con absoluta certeza, 
a menos que se examine toda la población, lo cual, por supuesto, sería poco práctico en 
la mayoría de las situaciones. En vez de eso se toma una muestra aleatoria de la pobla- 
ción de interés y se utilizan los datos contenidos en ella para proporcionar evidencia 
que respalde o no la hipótesis. La evidencia de la muestra que es inconsistente con la 
hipótesis planteada conduce al rechazo de la misma. 


El papel que desempeña la probabilidad en la prueba de hipótesis 


Debería quedar claro al lector que un procedimiento de toma de decisiones debe implicar 
la conciencia de la probabilidad de llegar a una conclusión errónea. Por ejemplo, su- 
ponga que la hipótesis que postuló el ingeniero es que la fracción p de artículos defectuo- 
sos en cierto proceso es 0.10. El experimento consiste en observar una muestra aleatoria 
del producto en cuestión. Suponga que se prueban 100 artículos y que se encuentran 12 
defectuosos. Es razonable concluir que esta evidencia no rechaza la condición de que el 
parámetro binomial p = 0.10, por lo que puede provocar que no se rechace la hipótesis. 
Sn embargo, también puede provocar que no se refute p = 0.12, o quizá incluso p = 
0.15. Como resultado, el lector se debe acostumbrar a la idea de que el rechazo de una 
hipótesis implica que fue refutada por la evidencia de la muestra. En otras palabras, 
el rechazo significa que existe una pequeña probabilidad de obtener la información 
muestral observada cuando, de hecho, la hipótesis es verdadera. Por ejemplo, en la 
hipótesis de la proporción de artículos defectuosos, una muestra de 100 artículos que 
revela que hay 20 defectuosos es ciertamente evidencia para el rechazo. ¿Por que? 51 
en realidad p = 0.10, la probabilidad de obtener 20 o más artículos defectuosos es 
aproximadamente de 0.002. Con el pequeño nesgo resultante de llegar a una conclusión 
errónea parecería seguro rechazar la hipótesis de que p = 0.10. En otras palabras, el 
rechazo de una hipótesis tende a casi “descartar” la hipótesis. Por otro lado, es muy 1m- 
portante enfatizar que la aceptación o, más bien, la falta de rechazo no descarta otras po- 
sibilidades. Como resultado, el analista de datos establece una conclusión firme cuando 
se rechaza una hipótesis. 
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La hipótesis nula y la hipótesis alternativa 


La estructura de la prueba de hipótesis se establece usando el término hipótesis nula, el 
cual se refiere a cualquier hipótesis que se desea probar y se denota con A. El rechazo de 
A, conduce a la aceptación de una hipótesis alternativa, que se denota con H,. La com- 
prensión de las diferentes funciones que desempeñan la hipótesis nula (HA,) y la hipótesis 
alternativa (A) es fundamental para entender los principios de la prueba de hipótesis. 
La hipótesis alternativa A, por lo general representa la pregunta que se responderá o la 
teoría que se probará, por lo que su especificación es muy importante. La hipótesis nula 
A, anula o se opone a A, y a menudo es el complemento lógico de A. A medida que el 
lector aprenda más sobre la prueba de hipótesis notará que el analista llega a una de las 
siguientes dos conclusiones: 


rechazar H, a favor de YH debido a evidencia suficiente en los datos o 
no rechazar A, debido a evidencia insuficiente en los datos. 


Observe que las conclusiones no implican una “aceptación de H_” formal y literal. La 
aseveración de A, a menudo representa el “status quo” contrario a una nueva idea, conje- 
tura, etcétera, enunciada en A; en tanto que no rechazar A, representa la conclusión ade- 
cuada. En nuestro ejemplo binomial la cuestión práctica podria ser el interés en que la 
probabilidad histórica de artículos defectuosos de 0.10 ya no sea verdadera. De hecho, 
la conjetura podría ser que p excede a 0.10. Entonces podríamos afirmar que 


Hop: p = 0.10, 
H;¡: p > 0.10. 


Ahora, 12 articulos defectuosos de cada 100 no refutan p = 0.10, por lo que la conclu- 
sión es “no rechazar A”. 5in embargo, si los datos revelan 20 artículos defectuosos de 
cada 100, la conclusión sería “rechazar A,” a favor de A: p > 0.10. 

Aunque las aplicaciones de la prueba de hipótesis son muy abundantes en trabajos 
científicos y de ingeniería, quizás el mejor ejemplo para un principiante sea el dilema 
que enfrenta el jurado en un juicio. Las hipótesis nula y alternativa son 


A; el acusado es inocente, 
HA: el acusado es culpable. 


La acusación proviene de una sospecha de culpabilidad. La hipótesis A, (el status quo) 
se establece en oposición a A, y se mantiene a menos que se respalde A, con evidencia 
“más allá de una duda razonable”. $5n embargo, en este caso “no rechazar A,” no tm- 
plica inocencia, sino sólo que la evidencia fue insuficiente para lograr una condena. Por 
lo tanto, el jurado no necesariamente acepta A, sino que no rechaza H,,. 


10.2. Prueba de una hipó tesis estadística 


Para dustrar los conceptos que se utilizan al probar una hipótesis estadística acerca de 
una población considere el siguiente ejemplo. 5e sabe que, después de un periodo de dos 
años, cierto tipo de vacuna contra un virus que produce resfriado ya sólo es 25% eficaz. 
Suponga que se eligen 20 personas al azar y se les aplica una vacuna nueva, un poco más 
costosa, para determinar si protege contra el mismo virus durante un periodo más largo. 
(En un estudio real de este tipo el número de participantes que reciben la nueva vacuna 
podría ascender a varios miles. Aquí la muestra es de 20 sólo porque lo único que se 
busca es demostrar los pasos básicos para realizar una prueba estadistica). 51 más de 8 
individuos de los que reciben la nueva vacuna superan el lapso de 2 años sin contraer el 
virus, la nueva vacuna se considerará superior a la que se usa en la actualidad. El requi- 
sito de que el número exceda a 8 es algo arbitrario, aunque parece razonable, ya que re- 
presenta una mejoria modesta sobre las 5 personas que se esperaría recibieran protección 
si fueran inoculadas con la vacuna que actualmente está en uso. En esencia probamos la 
hipótesis nula de que la nueva vacuna es igual de eficaz después de un periodo de 2 años 
que la que se utiliza en la actualidad. La hipótesis alternativa es que la nueva vacuna es 
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mejor, y esto equivale a poner a prueba la hipótesis de que el parámetro binomial para la 
probabilidad de un éxito en un ensayo dado es p = %4, contra la alternativa de que p > lá, 
Esto por lo general se escribe como se indica a continuación: 


El estadístico de prueba 


El estadístico de prueba en el cual se basa nuestra decisión es X, el número de indivi- 


duos en nuestro grupo de prueba que reciben protección de la nueva vacuna durante un 


periodo de al menos 2 años. Los valores posibles de X, de O a 20, se dividen en dos gru- 
pos: los números menores o Iguales que 8 y aquellos mayores que 8. Todos los posibles 
valores mayores que 3 constituyen la región crítica. El último número que observamos 
al pasar a la región crítica se llama valor crítico. En nuestro ejemplo el valor crítico es 


el número 8. Por lo tanto, sx > 8, rechazamos A, a favor de la hipótesis alternativa A.. 


511 E 8, no rechazamos A, Este enterio de decisión se ilustra en la figura 10.1. 


No rechazar H, Rachazar H, 
(p = 0.25) (p > 0.25) 


0123456788 1011 12 13 14 15 16 17 181920" 





























Figura 10.1: Criterio de decisión para probar p = 0.25 contra p > 0.25. 


La probabilidad de un error tipo 1 


Definición 10.2: 


El procedimiento de toma de decisiones recién desento podría conducir a cualquiera de 
dos conclusiones erróneas. Por ejemplo, es probable que la nueva vacuna no sea mejor 
que la que se usa en la actualidad (A, verdadera) y, sin embargo, en este grupo especl- 
fico de individuos seleccionados aleatoriamente más de $ pasan el periodo de 2 años sin 
contraer el virus. 51 rechazáramos Á, a favor de A, cuando, de hecho, A, es verdadera, 
cometeríamos un error que se conoce como error tipo L. 


El rechazo de la hipótesis nula cuando es verdadera se denomina error tipo L. 


51 8 0 menos miembros del grupo superan exitosamente el periodo de 2 años y no 
concluimos que la nueva vacuna es mejor cuando en realidad si lo es (A, verdadera), 
cometemos un segundo tipo de error, el de no rechazar la hipótesis A, cuando en realidad 
es falsa. A este error se le conoce como error tipo II. 


Definición 10.3: No rechazar la hipótesis nula cuando es falsa se denomina error tipo Il. 


Al probar cualquier hipótesis estadística, hay cuatro situaciones posibles que deter- 


minan s1 nuestra decisión es correcta o errónea. Estas cuatro situaciones se resumen en 


la tabla 10.1. 


Tabla 10.1: Situaciones posibles al probar una hipótesis estadística. 
Hyes verdadera — Hyes falsa | 
Decisión correcta — Error tipo ll 

Error tipo 1 Decisión correcta 


No rechazar H ¡ 
Rechazar H ¡ 
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La probabilidad de cometer un error tipo l, también amada nivel de significancia, 
se denota con la letra griega (Y. En nuestro ejemplo un error tipo 1 ocurriría si más de 8 
individuos inoculados con la nueva vacuna superan el periodo de 2 años sin contraer el 
virus y los investigadores concluyen que la nueva vacuna es mejor, cuando en realidad 
es igual a la vacuna que se utiliza en la actualidad. Por lo tanto, si XA es el número de 
individuos que permanecen sin contraer el virus por al menos dos años, 


20 
y IM =/ 
P(error tipo 1) = p(x > 8 cuando p = 5) =)Y b (x:20, 5) 


= 
l 


4 


r=%u4 
A 
e 1 
1— Y b (+: 20, 3) =1—0.9591 = 0.0409. 


A =Ú 


Decimos que la hipótesis nula, p = 1/4, se prueba al nivel de significancia € = 0.0409, 
En ocasiones el nivel de significancia se conoce como tamaño de la prueba. Una región 
critica de tamaño 0.0400 es muy pequeña y, por lo tanto, es poco probable que se cometa 
un error de tipo 1. En consecuencia, sería poco probable que más de 5 individuos perma- 
necieran inmunes a un virus durante 2 años utilizando una vacuna nueva que en esencia 
es equivalente a la que actualmente está en el mercado. 


La probabilidad de un error tipo Il 


La probabilidad de cometer un error tipo IL, que se denota $, es imposible de calcu- 
lar a menos que tengamos una hipótesis alternativa específica. 51 probamos la hipótesis 
nula p = 1/4 contra la hipótesis alternativa p = 1/2, entonces podremos calcular la pro- 
babilidad de no rechazar A, es falsa. Simplemente calculamos la probabilidad 
de obtener 3 o menos en el grupo que supera el periodo de 2 años cuando p = 1/2. En 
este caso, 


p= At =P (x=< $ cuando p =5) 


2% | 
=Y hb (x:20, 5) = 0.2517. 
0 d 


Se trata de una probabilidad elevada que indica un procedimiento de prueba en el cual es 
muy probable que se rechace la nueva vacuna cuando, de hecho, es mejor a la que está 
actualmente en uso. De manera ideal, es prefenible utilizar un procedimiento de prueba 
con el cual haya pocas probabilidades de cometer el error tipo l y el error tipo IL 

Es posible que el director del programa de prueba esté dispuesto a cometer un 
error tipo ll s: la vacuna más costosa no es sigmbicativamente mejor. De hecho, la única 


ocasión en la que desea evitar un error tipo ll es cuando el verdadero valor de p es de al 
menos 0.7. 51 p = 0.7, este procedimiento de prueba da 


8 = Pierror tipo II) = P(X < 8 cuando p = 0.7) 
5 
= Y b(x; 20, 0.7) = 0.0051. 


r=U 


Con una probabilidad tan pequeña de cometer un error tipo 1 es muy improbable que 
se rechace la nueva vacuna cuando tiene una efectividad de 70% después de un periodo 
de 2 años. A medida que la hipótesis alternativa se aproxima a la unidad, el valor de $ 
tiende a disminuir hasta cero. 
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El papel que desempeñan a, O y el tamaño de la muestra 


Supongamos que el director del programa de prueba no está dispuesto a cometer un error 
tipo 11 cuando la hipótesis alternativa p = 1/2 es verdadera, aun cuando se encuentre que 
la probabilidad de tal error es 4 = 0.2517. Siempre es posible reducir 4 aumentando el 
tamaño de la región crítica. Por ejemplo, considere lo que les sucede a los valores de 
a y Ó cuando cambiamos nuestro valor crítico a 7, de manera que todos los valores 
mayores que 7 caigan en la región crítica y aquellos menores o iguales que ? caigan en 
la región de no rechazo. Asi, al probar p = 1/4 contra la hipótesis alternativa p = 1/2, 
encontramos que 


21) 1) : 
1 | 1 | 
a= E (x: 20, 3) =1-— Be (x:20 3) = 1 —0.8982 = 0.1018 


7 l 

| | A ca 

p=>5 .b (5520, 5) = 0.1316. 
=8Ú ] 


Al adoptar un nuevo procedimiento de toma de decisiones, reducimos la probabili- 
dad de cometer un error tipo ll a costa de aumentar la probabilidad de cometer un error 
tipo L Para un tamaño muestral fijo, una disminución en la probabilidad de un error por lo 
general tendrá como resultado un incremento en la probabilidad del otro error. Por for- 
tuna, la probabilidad de cometer ambos tipos de errores se puede reducir aumen- 
tando el tamaño de la muestra. Considere el mismo problema usando una muestra 
aleatoria de 100 individuos. 31 más de 36 miembros del grupo superan el periodo de 2 
años, rechazamos la hipótesis nula de p = 1/4 y aceptamos la hipótesis alternativa de 
p > 1/4, El valor crítico ahora es 36. Todos los valores posibles mayores de 36 const- 
tuyen la región critica y todos los valores posibles menores o iguales que 36 caen en la 
región de aceptación. 

Para determinar la probabilidad de cometer un error tipo 1 debemos utilizar la 
aproximación a la curva normal con 


a IN A rro 
=p = (100) (3) =2 y  =x/ampg= 0001/4163 /4) = 4.33. 





Con respecto a la figura 10.2, necesitamos el área bajo la curva normal a la derecha 
de x = 36.5. El valor z correspondiente es 
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=p 





p=25 26.5 


Figura 10.2: Probabilidad de un error tipo 1. 


En la tabla A.3 encontramos que 
IN 
a = Píerror tipo I) = P (x > 36 cuando p = 5) = PAZ > 2.66) 


=1 — P(Z < 2.66) = 1 —0.9961 = 0 .0039. 


51 A, es falsa y el verdadero valor de A, es p = 1/2, determinamos la probabilidad 
de un error tipo ll usando la aproximación a la curva normal con 


p=np=(10011/2)=50 y 0=y/mpqg = y(10011/2X1/2)=S. 


La probabilidad de que un valor caiga en la región de no rechazo cuando A, es verdadera 
es dada por el área de la región sombreada a la izquierda de x = 36.5 en la figura 10.3. 
El valor z que corresponde ax = 30.5 es 





| oó- 5 





Bo) 


36.5 


Figura 10.3: Probabilidad de un error tipo IL 


Por lo tanto, 


| | l 
8 = P(error tipo TI) = P (x < 36 cuando p = 2) = P(Z < —2.2 = 0.0035. 
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Evidentemente, los errores tipo 1 y tipo ll rara vez ocurren si el experimento consta de 
100 individuos. 

El ejemplo anterior destaca la estrategia del científico en la prueba de hipótesis. 
Después de que se plantean las hipótesis nula y alternativa es importante considerar la 
sensibilidad del procedimiento de prueba. Con esto queremos decir que debería determi- 
narse un valor razonable a una a: fija para la probabilidad de aceptar de manera errónea 
A,, es decir, el valor de $, cuando la verdadera situación representa alguna desviación 
importante de A. Por lo general, es posible determinar un valor para el tamaño de la 
muestra, para el que existe un equilibrio razonable entre los valores de Q: y 4 que se 
calcula de esta manera. El problema de la vacuna es un ejemplo. 


Ilustración con una variable aleatoria continua 
Los conceptos que se analizan aquí para una población discreta también se pueden apl- 
car a variables aleatorias continuas. Considere la hipótesis nula de que el peso promedio 
de estudiantes hombres en cierta universidad es de 68 kilogramos, contra la hipótesis 
alternativa de que es diferente a 68. Es decir, deseamos probar 


HH; u = 68, 
A.: 1 $ 68. 
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La hipótesis alternativa nos permite la posibilidad de que 4 < 68 o u > Ó8. 

Una media muestral que calga cerca del valor hipotético de 68 se consideraría como 
evidencia a favor de A. Por otro lado, una media muestral considerablemente menor que 
o mayor que 68 sería evidencia en contra de A, y, por lo tanto, favorecería a A, .La media 
muestral es el estadistico de prueba en este caso. Una región critica para el estadistico de 
prueba se puede elegir de manera arbitraria como los dos intervalos 1 < 67 y x > 69. La 
región de no rechazo será entonces el intervalo 67 < í < 69, Este criterio de decisión se 
lustra en la figura 10.4. 





Figura 10,4: Región crítica (en azul). 


Utilicemos ahora el criteno de decisión de la figura 10.4 para calcular las pro- 
babilidades de cometer los errores tipo 1 y tipo ll cuando probemos la hipótesis nula u = 
68 kilogramos contra la alternativa u $ 68 kilogramos. 

Suponga que la desviación estándar de la población de pesos es Y = 3.6. Para mues- 
tras grandes podemos sustituir * por € si no disponemos de ninguna otra estimación 
de E. Nuestro estadístico de decisión, que se basa en una muestra aleatoria de tamaño 
n= 36, será X, el estimador más eficaz de 1. Del teorema del límite central sabemos 
que la distribución muestral de Xes aproximadamente normal con desviación estándar 
0 =0/ /n = 3.6/6 =0.6. 
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La probabilidad de cometer un error tipo 1, o el nivel de significancia de nuestra 
prueba, es Igual a la suma de las áreas sombreadas en cada cola de la distribución en la 
figura 10.5. Por lo tanto, 


o =P(X < 67 cuando 1 = 68) + P(X > 69 cuando 1 = 68). 





67 4= 68 my 


Figura 10.5: Región crítica para probar 4 = 68 contra u + Ó8. 


Los valores z correspondientes a x, = 67 y í, = 69 cuando A, es verdadera 








Por lo tanto, 
a = FZ < —1.6N7 + P(Z > 1.67) = 2P(Z < —1.67) = 0.0950. 


Por consiguiente, 9.5% de todas las muestras de tamaño 36 nos conducirian a rechazar 
4 = 68 kilogramos cuando, de hecho, ésta es verdadera. Para reducir dx tenemos que ele- 
gir entre aumentar el tamaño de la muestra o ampliar la región de no rechazo. Suponga 
que aumentamos el tamaño de la muestra a n = 64. Entonces 07 = 3.6/8 = 0.45. En 
consecuencia, 
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Por lo tanto, 
a =AZ< —2.2D+PZ > 222) =2 P(Z < -2.22) =0 .0264. 


La reducción de ex no es suficiente por sí misma para garantizar un buen pro- 
cedimiento de prueba. Debemos evaluar $ para varias hipótesis alternativas. $1 es impor- 
tante rechazar A, cuando la media verdadera sea algún valor 4 => 70 0 4 < 66, entonces 
se debería calcular y examinar la probabilidad de cometer un error tipo 11 para las alter- 
nativas 4 = 66 y «4 = 70, Debido a la simetría, sólo es necesario considerar la probabi- 
lidad de no rechazar la hipótesis nula 4 = 68 cuando la alternativa 4 = 70 es verdadera. 
Cuando la media muestral Y caiga entre 67 y 69, cuando A, sea verdadera, resultará un 
error tipo IL Por lo tanto, remitiéndonos a la figura 10.6 encontramos que 


8 = P(67 < X < 69 cuando u = 70). 


Ho NH, 






67 68 68. 70 am” 


Figura 10.6: Probabilidad del error tipo Il al probar 4 = 68 contra « = 70. 


Los valores z que corresponden a x, = 67 y x, = 69 cuando A, es verdadera son 








Por lo tanto, 
B=P(—76.67 < Z< -2.22) =P(Z < -1222) — P(Z < — 6.67) 
= 0.0132 — 0.0000 = 0.0132. 


Si el valor verdadero de u es la alternativa 4 = 66, el valor de $ nuevamente será 
0.0132. Para todos los valores posibles de 4 < 66 0 u > 70, el valor de $ será incluso 
más pequeño cuando 1 = 64 y, en consecuencia, habrá poca oportunidad de no rechazar 
A, cuando sea falsa. 

La probabilidad de cometer un error tipo 1 aumenta rápidamente cuando el valor 
verdadero de se aproxima al valor hipotético pero no es igual a éste. Desde luego, ésta 
suele ser la situación en la que no nos importa cometer un error tipo ll. Por ejemplo, si 
la hipótesis alternativa 4 = 68.5 es verdadera, no nos importa cometer un error tipo ll al 
concluir que la respuesta verdadera es 4 = 68. La probabilidad de cometer tal error será 
elevada cuando n = 64. Al remitirnos a la figura 10.7, tenemos 
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B=P(67 < X < 69 cuando y = 68.5). 
Los valores z correspondientes a 1, = 67 y £, = 69 cuando 4 = 68.5 son 


67-685 
045 


_ 69—68,5 


| =-34.33 q = = 1.11. 
31 y DAS 


Por lo tanto, 
B=P(-333 < Z< 111)=P(Z < 1.11) P(Z < -3.33) 
= 0.8665 — 0.0004 = 0.8661. 


Los ejemplos anteriores ilustran las siguientes propiedades importantes: 


le” 
- a a a a DA e a a a a 
E % 
e” ; 
> 








67 68 68.5 69 


Figura 10.7: Error tipo ll para la prueba de u = 68 contra 4 = 68.5. 


Propiedades 1. Los errores tipo 1 y tipo Il están relacionados. Por lo general una disminución en 
importantes la probabilidad de cometer uno da como resultado un incremento en la probabili- 
de una prueba de dad de cometer el otro. 
hipótesis 


2. El tamaño de la región crítica y, por lo tanto, la probabilidad de cometer un error 
tipo Í, siempre se puede reducir ajustando el (los) valor(es) crítico(s). 


3. Un aumento en el tamaño de la muestra n reducirá d+ y 6 de forma simultánea. 


4. Si la hipótesis nula es falsa, $ es un máximo cuando el valor verdadero de un 
parámetro se aproxima al valor hipotético. Cuanto más grande sea la distancia 
entre el valor verdadero y el valor hipotético, más pequeña será $. 


Definición 10.4: La potencia de una prueba es la probabilidad de rechazar H,, dado que una alternativa 
específica es verdadera. 


10.3. Pruebas de una cola y dos colas 
Una prueba de cualquier hipótesis estadística donde la alternativa es unilateral, como 


H; A = 8. 
H:0>0, 


o quizás 
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se denomina prueba de una sola cola. Anteriormente en esta sección se hizo referen- 
cia al estadístico de prueba para una hipótesis. Por lo general la región crítica para la 
hipótesis alternativa € > 6, yace en la cola derecha de la distribución del estadístico 
de prueba, en tanto que la región crítica para la hipótesis alternativa € < 6, yace por 
completo en la cola izquierda. (En cierto sentido el símbolo de desigualdad señala la 
dirección en donde se encuentra la región crítica). En el experimento de la vacuna se 
utilizó una prueba de una sola cola para probar la hipótesis p = 1/4 contra la alternativa 
unilateral p > 1/4 para la distribución binomial. La región crítica de una sola cola por 
lo general es evidente; el lector debería visualizar el comportamiento del estadístico de 
prueba y observar la señal evidente que produciría evidencia que respalde la hipótesis 
alternativa. 

La prueba de cualquier hipótesis alternativa donde la alternativa es bilateral, como 


As; 8 = 8. 
H:06H 08, 


se denomina prueba de dos colas, ya que la región crítica se divide en dos partes, a me- 
nudo con probabilidades iguales en cada cola de la distribución del estadístico de prueba. 
La hipótesis alternativa 6 + 8, establece que 8 < 6 o que 6 > 8. Se utilizó una prueba 
de dos colas para probar la hipótesis nula 4 = 68 kilogramos contra la alternativa bilate- 
ral y $ 68 kilogramos en el ejemplo de la población continua de los pesos de estudiantes. 


¿Cómo se eligen las hipótesis nula y alternativa? 


Con frecuencia la hipótesis nula A, se plantea usando el signo de igualdad. Con este 
método se observa claramente cómo se controla la probabilidad de cometer un error tipo 
L Sin embargo, hay situaciones en que “no rechazar A,” implica que el parámetro 6 po- 
dría ser cualquier valor definido por el complemento natural de la hipótesis alternativa. 
Por ejemplo, en el caso de la vacuna, donde la hipótesis alternativa es A: p > 14, es 
muy posible que el no rechazo de A, no pueda descartar un valor de p menor que 1/4. 
Sin embargo, es evidente que en el caso de las pruebas de una cola la consideración más 
importante es el planteamiento de la alternativa. 
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La decisión de plantear una prueba de una cola o una de dos colas depende de la con- 
clusión que se obtenga si se rechaza A. La ubicación de la región critica sólo se puede 
determinar después de que se plantea A. . Por ejemplo, al probar una medicina nueva se 
establece la hipótesis de que no es mejor que las medicinas similares que actualmente 
hay en el mercado y se prueba contra la hipótesis alternativa de que la medicina nueva 
es mejor. Esta hipótesis alternativa dará como resultado una prueba de una sola cola, 
con la región crítica en la cola derecha. 51n embargo, si deseamos comparar una nueva 
técnica de enseñanza con el procedimiento convencional del salón de clases, la hipótesis 
alternativa debe permitir que el nuevo método sea inferior o superior al procedimiento 
convencional. Por lo tanto, la prueba sería de dos colas con la región crítica dividida en 
partes iguales, de manera que caiga en los extremos de las colas izquierda y derecha de 
la distribución de nuestro estadístico. 








Ejemplo 10,1: Un fabricante de cierta marca de cereal de arroz afirma que el contenido promedio de 
grasa saturada no excede a 1.5 gramos por porción. Plantee las hipótesis nula y alterna- 
tiva que se utilizarán para probar esta afirmación y establezca en dónde se localiza la 
región crítica. 

Solución: La afirmación del fabricante se rechazará sólo si 4 es mayor que 1.5 miligramos y no se 
rechazará s1 4 es menor o igual que 1.5 miligramos. Entonces, probamos 


H;¿p=13, 
A. a > 15. 


El hecho de no rechazar A, no descarta valores menores que 1.5 miligramos. Como te- 
nemos una prueba de una cola, el símbolo mayor indica que la región crítica reside por 
completo en la cola derecha de la distribución de nuestro estadístico de pruebaX. JN 


10.4. El uso de los valores P en la toma de decisiones 


Al probar hipótesis en las que el estadístico de prueba es discreto, la región crítica se po- 
dría elegir de manera arbitraria y determinar su tamaño. 51 € es demasiado grande, se 
reduce haciendo un ajuste en el valor crítico. Quizá sea necesario aumentar el tamaño 


de la muestra para compensar la disminución que ocurre de manera automática en la 
potencia de la prueba. 

Por generaciones enteras de análisis estadístico se ha vuelto costumbre elegir una «Y 
de 0.05 0 0.01 y seleccionar la región crítica de acuerdo esto. Entonces, desde luego, 
el rechazo o no rechazo estrictos de A, dependerá de esa región crítica. Por ejemplo, s1 
la prueba es de dos colas, dr se fija a un nivel de significancia de 0.05 y el estadistico de 
prueba implica, digamos, la distribución normal estándar, entonces se observa un valor z 
de los datos y la región crítica es 


z>1% ¡6 z2<-—1.096, 
donde el valor 1.96 corresponde a z,,., en la tabla A.3. Un valor de z en la región crítica 


sugiere la aseveración: “El valor del estadístico de prueba es significativo”, el cual se 
puede traducir al lenguaje del caso. Por ejemplo, si la hipótesis es dada por 


A; a = 10, 
A. a $ 10, 


150 


Preselección de un nivel de significancia 


Esta preselección de un nivel de significancia € tiene sus raices en la filosofía de que se 
debe controlar el nesgo máximo de cometer un error tipo L Sin embargo, este enfoque 
no explica los valores del estadístico de prueba que están “cercanos” a la región crítica. 
Suponga, por ejemplo, que en el caso de A: 4 = 10, contra A: 4 $ 10, se observa un 
valor z = 1.87. En términos estrictos, con € = 0.05 el valor no es signtficativo; pero 
el riesgo de cometer un error tipo l si se rechaza A, en este caso difícilmente se podría 
considerar grave. De hecho, en una situación de dos colas, el riesgo se cuantifica como 


P=2P(Z > 1.87 cuando u = 10) = 2(0.0307) = 0.0614. 


Como resultado, 0.0614 es la probabilidad de obtener un valor de z tan grande o ma- 
yor (en magnitud) que 1.57 cuando, de hecho, 4 = 10. Aunque esta evidencia en contra 
de A, no es tan firme como la que resultaría de un rechazo a un nivel €; = 0.05, se trata 
de información importante para el usuario. De hecho, el uso continuo de € = 0.05 0 0.01 
tan sólo es un resultado de lo que los estándares han transmitido por generaciones. En 
la estadistica aplicada los usuarios han adoptado de forma extensa el método del 
valor P. El método está diseñado para dar al usuario una alternativa (en términos de una 
probabilidad) a la mera conclusión de “rechazo” o “no rechazo”. El cálculo del valor P 
también proporciona al usuario información importante cuando el valor z cae dentro de 
la región crítica ordinaria. Por ejemplo, si es 2.73, resulta informativo para el usuario 
observar que 


y, por consiguiente, el valor z es significativo a un nivel considerablemente menor que 
0.05. Es importante saber que bajo la condición de A, un valor de z = 2.73 es un evento 
demasiado raro. Á saber, un valor al menos tan grande en magnitud sólo ocurriría 64 
veces en 10,000 experimentos. 
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Demostración gráfica de un valor P 


Definición 10.5: 


Una manera muy simple de explicar gráficamente un valor FP consiste en considerar dos 
muestras distintas. Suponga que se están considerando dos materiales para cubrir un tipo 
específico de metal con el fin de evitar la corrosión. $e obtienen especímenes y se cubre 
un grupo con el material 1 y otro grupo con el material 2. Los tamaños muestrales son 
n, =1,= 10 para cada muestra y la corrosión se mide en el porcentaje del área superfi- 
cial afectada. La hipótesis plantea que las muestras provienen de distribuciones comu- 
nes con media 4 = 10. Supongamos que la varianza de la población es 1.0. Entonces, 
probamos 
Hp: Mt; = fia = 10. 


Representemos con la figura 10.5 una gráfica de puntos de los datos. Los datos se 
colocan en la distribución determinada por la hipótesis nula. Supongamos que los datos 
“Xx” se refieren al material 1 y que los datos “o” se refieren al material 2. Parece evidente 
que los datos realmente refutan la hipótesis nula. Pero, ¿cómo se podría resumir esto 
en un número? El valor P se puede considerar simplemente como la probabilidad 
de obtener este conjunto de datos dado que las muestras provienen de la misma 
distribución. Es evidente que esta probabilidad es muy pequeña, ¡digamos 0.00000001! 
Por consiguiente, el pequeño valor P evidentemente refuta A, y la conclusión es que las 
medias de la población son significativamente diferentes. 


| 
Á 


Figura 10.8: Datos que son probablemente generados de poblaciones que tienen dos 
medias diferentes. 


El uso del método del valor P como auxiliar en la toma de decisiones es muy na- 
tural y casi todos los programas de cómputo que proporcionan el cálculo de pruebas de 
hipótesis ofrecen valores FE junto con valores del estadístico de prueba adecuado. La 
siguiente es una definición formal de un valor P. 


Un valor P es el nivel (de significancia) más bajo en el que el valor observado del esta- 
dístico de prueba es significativo. 


¿En qué difiere el uso de los valores P de la prueba de hipótesis clásica? 


En este momento resulta tentador resumir los procedimientos que se asocian con la 
prueba de, digamos, A: € = 6,. Sin embargo, el estudiante que es novato en esta área 
deberá tener en cuenta que hay diferencias entre el enfoque y la filosofía del método 


clásico de € fija, que tiene su momento más importante en la conclusión de “rechazar 
A, o “norechazar A,” y el método del valor P. En este últrmo no se determina una d+ fija 
y las conclusiones se obtienen con base en el tamaño del valor P, según la apreciación 
subjetiva del ingeniero o del científico. Aun cuando los modernos programas de cómputo 
proporcionan valores PF, es importante que el lector comprenda ambos enfoques para 
apreciar la totalidad de los conceptos. Por lo tanto, ofrecemos una breve lista con los 
pasos del procedimiento tanto para el método clásico como para el del valor P. 


Aproximación a 
la prueba de 
hipótesis con 
probabilidad fija 
del error po 


Prueba de 
sigmbicancia 
(método del valor 
Pi 


10.5. Pruebas 


52 


1. Establezca las hipótesis nula y alternativa. 

2. Elija un nivel de significancia dr fijo. 

3. Seleccione un estadistico de prueba adecuado y establezca la región crítica 
base en dr. 

4. Rechace HA, si el estadístico de prueba calculado está en la región crítica. De otra 
manera, no rechace HH, 

5. Saque conclusiones cientificas y de ingeniería. 


1. Establezca las hipótesis nula y alternativa. 

2. Elija un estadístico de prueba adecuado. 

3, Calcule el valor P con base en los valores calculados del estadístico de prueba. 
4. Saque conclusiones con base en el valor P y los conocimientos del sistema cien- 





En secciones posteriores de este capítulo y en los capítulos siguientes muchos ejem- 
plos y ejercicios destacarán el método del valor FP para obtener conclusiones cientificas. 


relacionadas con una sola media (variancia conocida) 


Primero deberíamos describir las suposiciones en las que se basa el experimento. El 
modelo para la situación subyacente se centra alrededor de un experimento con A, X....., 


XA. que representan una muestra aleatoria de una distribución con media e y varianza 
o?*> 0. Considere primero la hipótesis 


H¿4=H4, 
TE A 


El estadístico de prueba adecuado se debe basar en la vanable aleatoria X. En el capítulo 
á se presentó el teorema del límite central, el cual establece en esencia que, sin importar 
la distribución de X, la variable aleatoria X tiene una distribución casi normal con media 
4 y varianza On para muestras de tamaño razonablemente grande. Por consiguiente, 
o =H y o = o] n. Podemos determinar, entonces, una región crítica basada en el 
promedio muestral calculado í. Ahora ya debería quedarle claro al lector que habrá una 
región critica de dos colas para la prueba. 


Estandarización de X 


Es conveniente estandarizar Xe incluir de manera formal la variable aleatoria normal 
estándar Z, donde 


Xp 


Sabemos que, bajo H,, es decir, si u = 11, entonces /n (X —p1, )/07 tiene una distribución 
nx; 0, 1) y, por lo tanto, la expresión | 


£= 





X — ho 
Pl —zam < ——> <a | =1-0 
(ora < o/y < 0/2) 
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se puede utilizar para escribir una región de no rechazo adecuada. El lector deberia 
tener en la mente que, formalmente, la región crítica se diseña para controlar ax, la pro- 
babilidad de cometer un error tipo L Debería ser evidente que se necesita una señal de 
evidencia de dos colas para apoyar A. Ási, dado un valor calculado £, la prueba formal 
implica rechazar A, s1 el estadístico de prueba z calculado cae en la región crítica que se 
describe a continuación. 


Procedimiento de E — ho L í — Ho e 
prueba para una A O EAS 
sola media Jyn Jun 





(varianza Siz, .<z<2,,, no se rechaza H,. El rechazo de H,, desde luego, implica la aceptación 
conocida) de la hipótesis alternativa u 4 11, Con esta definición de la región crítica debería quedar 
claro que habrá a: probabilidades de rechazar A, (al caer en la región crítica) cuando, en 

realidad, u = pl, 


Aunque es más fácil entender la región crítica escrita en términos de z, escribimos 
la misma región crítica en términos del promedio calculado Y. Lo siguiente se puede 
escribir como un procedimiento de decisión idéntico: 


rechazar H,six<aox > b, 
donde 


o O 
E b =p, + Za/2 de 


En consecuencia, para un nivel de significancia (+, los valores críticos de la variable 
aleatoria z y Y se presentan en la figura 10.9, 


ma 
o 
ja 


ajf2 aj2 Ñ 
a pi b 


Figura 10.9: Región crítica para la hipótesis alternativa u $ 4, . 


Las pruebas de hipótesis unilaterales sobre la media incluyen el mismo estadístico 
que se describe en el caso bilateral. La diferencia, por supuesto, es que la región crítica 
sólo está en una cola de la distibución normal estándar. Por ejemplo, supongamos que 
buscamos probar 

H¿ 1 = fly 

AH > pu, 
La señal que favorece A, proviene de valores grandes de 7. Asi, el rechazo de A, resulta 
cuando se calcula 7 > z, . Evidentemente, si la alternativa es A: 4 < a, la región crítica 
está por completo en la cola inferior, por lo que el rechazo resulta de 7 <=. Aunque en 
el caso de una prueba unilateral la hipótesis nula se puede escribir como A, 4 < 4 0H: 
A 2 4, por lo general se escribe como A,: 4 = p,. 

Los siguientes dos ejemplos ilustran pruebas de medias para el caso en el que se 
conoce d. 
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10.6. Relación con la estimación del intervalo de confianza 


El lector ya se habrá dado cuenta de que el método de la prueba de hipótesis para la 
inferencia estadistica de este capítulo está muy relacionado con el método del intervalo 
de confianza del capítulo 9. La estimación del intervalo de confianza incluye el cálcu- 
lo de límites dentro de los cuales es “razonable” que resida el parámetro en cuestión. 
Para el caso de una sola media de la población 4 con e*conocida, la estructura tanto 
de la prueba de hipótesis como de la estimación del intervalo de confianza se basa en la 
variable aleatoria 

Xx —p 


A 





Resulta que la prueba de A; 4 = ¿contra A: 4 $ 4, a un nivel de significancia dt es 
equivalente a calcular un intervalo de confianza del 1001 — (0% sobre u y rechazar HA. 
sia, está fuera del intervalo de confianza. 51 4, está dentro del intervalo de confianza, no 
se rechaza la hipótesis. La equivalencia es muy intuitiva y se puede ilustrar de manera 
muy simple. Recuerde que con un valor observado x, no rechazar A, a un nivel de sig- 





mificancia de implica que 
Xx — pu 
—Zaf2 E —= £ Zla/2s 
que es equivalente a 
a ar 
ñ LE +Fzno—: 


La equivalencia de la estimación del intervalo de confianza con la prueba de hipó- 
tesis se extiende a las diferencias entre dos medias, varianzas, cocientes de varianzas, 
etcétera. Como resultado, el estudiante de estadística no debería considerar la estimación 
del intervalo de confianza y la prueba de hipótesis formas separadas de inferencia 
estadistica. Considere el ejemplo 9.2 de la página 271. El intervalo de confianza del 
95% sobre la media es dado por los límites (2.50, 2.70). Por consiguiente, con la misma 
información muestral, no se rechazará una hipótesis bilateral sobre « que incluya cual- 
quier valor hipotético entre 2.50 y 2.70. A medida que exploremos diferentes áreas de la 
prueba de hipótesis seguiremos aplicando la equivalencia a la estimación del intervalo 
de confianza. 


155 


10.1. Pruebas relacionadas con una sola media (variancia desconocida) 


El estadístico 
para una prueba 
sobre una sola 
media (varianza 
desconocida) 


excede a1,,,, 085 menor que —/,,... 


Ciertamente sospecharíamos que las pruebas sobre una media de la población 4 con q” 
desconocida, como la estimación del intervalo de confianza, deberían incluir el uso de 
la distribución f de Student. En términos estrictos, la aplicación de la + de Student tanto 
para los intervalos de confianza como para la prueba de hipótesis se desarrolla bajo los 
siguientes supuestos. Las variables aleatorias XA. X....., A, representan una muestra alea- 
toria de una distribución normal con « y * desconocidas. Entonces, la variable aleatoria 
¿n[X —p1) / $ tiene una distribución 1 de Student con n— 1 grados de libertad. La estruc- 
tura de la prueba es idéntica a la del caso en el que se conoce E, excepto que el valor q 
en el estadístico de prueba se reemplaza con el estimado calculado de 5 y la distribución 
normal estándar se reemplaza con una distribución £. 


Para la hipótesis bilateral 
AH =H 
HH: Ep, 
rechazamos A, a un mvel de significancia e cuando el estadistico t calculado 


X 


— Ho 
5f xn 


" 





El lector debería recordar de los capitulos 8 y 9 que la distribución f es simétrica alrede- 
dor del valor cero. Ási, esta región crítica de dos colas se aplica de manera similar a la 
del caso en que se conoce €. Para la hipótesis bilateral a un nivel de significancia (+ se 
aplican las regiones críticas de dos colas. Para A: u > a, el rechazo resulta cuando f > 


f 


a = 1 


. Para A: u < a, la región crítica es dada por <—. 





Ejemplo 10.5: 


Solución: 


El Edison Electric Institute publica cifras del número de kilowatts-hora que gastan 
anualmente varios aparatos electrodomésticos. $e afirma que una aspiradora gasta un 
promedio de 46 kilowatts-hora al año. 51 una muestra aleatoria de 12 hogares, que se 
incluye en un estudio planeado, indica que las aspiradoras gastan un promedio de 42 
kilowatts-hora al año con una desviación estándar de 11.9 kilowatts-hora, ¿esto sugiere 
que las aspiradoras gastan, en promedio, menos de 46 kilowatts-hora al año a un nivel de 
significancia de 0.05? Suponga que la población de kilowatts-hora es normal. 

1. A, 1 = 46 kilowatts-hora. 

2. A: y < 46 kilowatts-hora. 

4. Región crítica: 1 < —1.796, donde 1 = 37 3a com 11 grados de libertad. 


5. Cálculos: x = 42 kilowatts-hora, $ = 11.9 kilowatts-hora y a = 12. 
En consecuencia, 
q 42-46 _ 
11.912 


6. Decisión: no rechazar A, y concluir que el número promedio de kilowatts-hora que 
gastan al año las aspiradoras domésticas no es significativamente menor que 46.1 


1.16, P=P(T < —1.16) = 0.135. 
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10.2. Pruebas sobre dos medias ( Dos muestras) 


El lector deberá comprender la relación entre pruebas e intervalos de confianza y sólo 
puede confiar plenamente en los detalles que ofrece el material sobre el intervalo de con- 
fianza del capitulo 9. Las pruebas respecto a dos medias representan un conjunto de he- 


ramientas analíticas muy importantes para el cientifico o el ingeniero. El procedimiento 
experimental es muy parecido al que se describe en la sección 9.8. Se extraen dos mues- 
tras aleatorias independientes de tamaños 1, y n,, respectivamente, de dos poblaciones 
con medias 4, Y 4,. y varianzas dy 65. Sabemos que la variable aleatoria 


Z = (X, —X2) — (ii — pia) 
ya? m>+ an 


tiene una distribución normal estándar. Suponemos aquí que n, y n,50n suficientemente 
grandes, por lo que se aplica el teorema del límite central. Por supuesto, si las dos po- 
blaciones son normales, el estadístico anterior tiene una distribución normal estándar 
incluso para n, y 1, pequeñas. Evidentemente, s1 podemos suponer que 7, = 0, = 0, el 
estadistico anterior se reduce a 


7= (Xy —X 2) — (pu — fl) 
Oy ln; + ln ] 


Los dos estadísticos anteriores sirven como base para el desarrollo de los procedimientos 
de prueba que incluyen dos medias. La equivalencia entre las pruebas y los intervalos de 
confianza, junto con los detalles técnicos implicados en las pruebas sobre una media, 
permiten que la transición a pruebas con dos medias sea sencilla. 

La hipótesis bilateral sobre dos medias se escribe de manera muy general como 


Hop: ty — fla = dh. 
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Es evidente que la alternativa puede ser bilateral o unilateral. De nuevo, la distribu- 
ción que se utiliza es la distribución del estadístico de prueba bajo A, 5e calculan los 
valores X, y £, y para G, y 6, conocidas, el estadistico de prueba es dado por 


(Xy —X2)—do 


con una región crítica de dos colas en el caso de una alternativa bilateral. Es decir, se 
rechaza A, a favor de A: 4, —4, Fd,,512>2,,07 < —2,. Las regiones criticas de una 
cola se utilizan en el caso de alternativas umilaterales. El lector debería estudiar, como 
antes, el estadístico de prueba y estar satistecho de que para, digamos A: 4, — 4, > d,, 
la señal que favorece A, provenga de valores grandes de z. Por consiguiente, se aplica la 
región crítica de la cola superior. 





Varianzas desconocidas pero iguales 


Las situaciones más comunes que implican pruebas sobre dos medias son aquellas con 
varianzas desconocidas. $1 el científico interesado está dispuesto a suponer que ambas 
distribuciones son normales y que (, = €, = €, se puede utilizar la prueba t agrupada 
(a menudo llamada prueba í de dos muestras). El estadístico de prueba (véase la sección 
9.8) es dado por el siguiente procedimiento de prueba. 


























- Prueba? Para la hipótesis bilateral. 
agrupada de 


dos muestras A, 4, = Ml, 


ñ, - He, + HL, 
rechazamos A, al mwvel de significancia €* cuando el estadistico 1 calculado 


(=1 —X2)—do 


a soy 1/m + 1/n2 


donde 


si (m — 1) +s55(m2 —1) 


ni + =2 


hs 
a ha 


excede a la/2 1 +n3—2 0 es menor que —la/2 m+n3-2-. 
Recuerde que en el capitulo 9 se explicóque los grados de libertad para la distribución tson 
un resultado del agrupamiento de la información de las dos muestras para estimar 07. Las 
alternativas unilaterales, como era de esperarse, sugieren regiones críticas unilaterales. Por 
ejemplo, para A¡: y — a > dí, rechace Ay: iy — io = de cuando 1 > fan +mo—2- 

Varianzas desconocidas pero diferentes 
Hay situaciones donde al analista no le es posible suponer que O, = 9. De la sección 9.8 
recuerde que, s1 las poblaciones son normales, el estadistico 

_ (X1—X2)—doo 

y 53 /m +85/1m2 


¿ 


tiene una distribución £ aproximada grados de libertad aproximados 


(5 /m3 fm — 1) + (53/12) /(m3 —1) 
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Como resultado, el procedimiento de prueba consiste en no rechazar A, cuando 


+ 
Hair EU E lajir, 


con v dado como antes. De nuevo, como en el caso de la prueba f agrupada, las alterna- 


tivas unilaterales sugieren regiones críticas unilaterales. 


10.3. Selección del tamaño de la muestra para la prueba de medias 





pi — la =dp 


Jj — fia = di 


En la sección 10.2 demostramos cómo el analista puede explotar las relaciones entre el 
tamaño de la muestra, el nivel de significancia d* y la potencia de la prueba para alcanzar 
cierto estándar de calidad. En la mayoría de las circunstancias prácticas el experimento 
debería planearse y, de ser posible, elegir el tamaño de la muestra antes del proceso de 
recolección de datos. Por lo general el tamaño de la muestra se determina de modo que 


Tabla 10.3: Pruebas relacionadas con medias 


Valor del estadístico de prueba 


GC conocida 





Ba, 
7 = mi 


Vo /m +03/n3 
G y G conocidas 
A — 2) de 
spy 1/m +1 m0 


V=.8¡ +n2—2, 


6 = (6 pero desconocidas 


ro ni +1: -—2 
E —X2) — de 








p' _—; 
1) 5/2 
(i/m +52/m2y 
> Cir + CIC ¿ 
ni— ny 
E $6 y desconocidas 
f= dd e 
54 no 
v=n->—]l 


Hp < de 
Hp > do 
Hp Edo 





[ES —la/2 012 Íaj2 


'<—la 
> ta 
<< — lapa 08 > faja 


1< —la 
i> lo 
[E —faj2301>1a72 


permita lograr una buena potencia para una dt fija y una alternativa especifica fija. Esta 
alternativa fija puede estar en la forma de 4 — 4, en el caso de una hipótesis que incluya 


una sola media o 4, — 
especificos serán ilustrativos. 


Suponga que deseamos probar la hipótesis 


e, enel caso de un problema que implique dos medias. Los casos 
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Hj¿ 4 = Ho 
A, =4 > Hp 
con un nivel de significancia €*, cuando se conoce la varianza 07. Para una alternativa 
específica, digamos, 4 =4, + Ó en la figura 10.14 se muestra que la potencia de nues- 
tra prueba es 
lI—B=P(X >a cuando i= iy +0). 
Por lo tanto, 


B=PiX < a cuando fi = iy +0) 


X —(Mo+0) _ a— (Mo +0) 


o/yi ahii 


=P cuando up +0]. 


AO Y 





XxX 


Figura 10.14: Prueba de 4 = 1, contra 4 = 1, + Ó. 


Bajo la hipótesis alternativa 4 = 4, + ó, el estadístico 


X — (po +0) 
af a 


es la vanable normal estándar 4. Por lo tanto, 


p=r (z< TRA) =P (z< to 175)' 


de donde concluimos que 


y, en consecuencia, 


Elección del tamaño de la muestra: n = 2207 


un resultado que también es verdadero cuando la hipótesis alternativa es 4 < 4. 
En el caso de una prueba de dos colas obtenemos la potencia 1 — $ para una alter- 
nativa especifica cuando 


O ODIA 
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El caso de dos muestras 
5e puede utilizar un procedimiento similar para determinar el tamaño de la muestra 1 = 


n, = n,que se requiere para una potencia especifica de la prueba en que se comparan dos 
medias de la población. Por ejemplo, suponga que deseamos probar la hipótesis 


Aj H, — 4, = de» 
HH: a, — 1, E de, 


cuando se conocen (, y O. Para una alternativa especifica, digamos 4 —u, =d, + ó en 
la figura 10.15 se muestra que la potencia de nuestra prueba es 


1I—B=P(|X, —Xa3| > a cuando 41 — ia = de +0). 


Ú 
1 
ll 
Ú 
" 
A 
Ú 
" 
ll 
i 
" 
ll 
Ú 
Ú 
ll 
Ú 
Ú 
A 
o 





—u do a da+ E 


Figura 10.15: Prueba de a, — 1, = dí, contra 4, — 4, = dd, + 0. 


Por lo tanto, ] Ñ 
B=Pií-a< X, —X <a cuando iy — is = de +0) 


=p| 2 (do +0) e (X, —X2 ) — (du +0) 
y lo] +03)/n y (ai +03)/n 
Por lo tanto, R Ñ 
B=Pí-—a< X, —X> <a cuando ft; — is = de +0) 
—a — (du +0) pr (X, —X> ) — (du +0) 


y (or +03)/n yla +03)n 
a — (do +0) 


AAA do ja Pr da +0 
TT IÓ 


Con la hipótesis alternativa 4, —u,= dí, + 0, el estadístico 


Xi —X2—(da +0) 


y (0 +0) 
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es la vanable normal estándar £. Ahora bien, al escribir 
—a — de a — de 
; (a? + a) [nm + 


Y» 


— F 


2112 RES Y “api? 
j | - es 
e yl (a; +03)/n da 


tenemos 
B=P | A A A 
ra 0 eradin) 


de donde concluimos que 





y. por lo tanto, 


(Zay2 +28) (07 + 053) 


Para la prueba de una sola cola, la expresión para el tamaño requerido de la muestra 
cuando 1 =1, =N, €5 
(Za +23 (oí +0) 
7 0 
Cuando se desconoce la varianza de la población (o vananzas en la situación de dos 


muestras), la elección del tamaño de la muestra no es directa. Al probar la hipótesis 4 = 
a, cuando el valor verdadero es 4 = 4, + 0, el estadístico 


Elección del tamaño de la muestra: 1 = 


X — (Ho +0) 
5/ Jn 
no sigue la distribución £, como se podría esperar, más bien sigue la distribución f no 
central. 5in embargo, existen tablas o gráficas que se basan en la distribución f no cen- 
tral para determinar el tamaño adecuado de la muestra, si se dispone de algún estimado 
de Fo si des un múltiplo de O. La tabla A.8 proporciona los tamaños muestrales nece- 
sarios para controlar los valores de (+: y 3 para diversos valores de 


a 19 _ lHol 
or or 


en el caso de pruebas de una y de dos colas. En el caso de la prueba 1 de dos muestras en la 
que se desconocen las varianzas pero se suponen Iguales, obtenemos los tamaños mues- 
trales n =1, =n, necesarios para controlar los valores de d+ y $ para diversos valores de 


pe 1Ó] _ [po — 2 dol 
g g 


de la tabla A.9. 
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10.4. Pruebas relacionadas con proporciones 


Prueba de una 
proporción 
(muestras 
pequeñas) 


Las pruebas de hipótesis que se relacionan con proporciones se requieren en muchas 
áreas. A los políticos les interesa conocer la fracción de votantes que los favorecerá en la 
siguiente elección. Todas las empresas manufactureras se preocupan por la proporción 
de articulos defectuosos cuando se realiza un embarque. Los jugadores dependen del 
conocimiento de la proporción de resultados que consideran favorables. 

Consideraremos el problema de probar la hipótesis de que la proporción de éxitos 
en un experimento binomial es igual a algún valor específico. Es decir, probaremos la 
hipótesis nula A, de que p = p,, donde p es el parámetro de la distribución binomial. 
La hipótesis alternativa puede ser una de las alternativas unilaterales o bilaterales 
usuales: 

P<Po P>Po 0 pP+FPo. 

La variable aleatoria adecuada sobre la que basamos nuestro entero de decisión 
es la variable aleatoria binomial X; aunque también podríamos usar el estadístico p = 
Aín. Los valores de X que están lejos de la media « = ap, conducirán al rechazo de la 
hipótesis nula. Como A es una variable binomial discreta, es poco probable que se pueda 
establecer una región crítica cuyo tamaño sea exactamente igual a un valor preestable- 
cido de €. Por esta razón es preferible, al trabajar con muestras pequeñas, basar nuestras 
decisiones en valores P. Para probar la hipótesis 

Hs P = Pp 

H ¿p< Py 
utilizamos la distribución binomial para calcular el valor P 
P = P(X < x cuando p = pp). 


El valor x es el número de éxitos en nuestra muestra de tamaño a. 51 este valor P es me- 
nor o igual que d+, nuestra prueba es significativa al nivel d+: y rechazamos A, a tavor de 
A,. De manera similar, para probar la hipótesis 

Ho: P= Pp 

H.:P>Py 
al nivel de significancia dx, calculamos 

P = P(X > x cuando p = py) 

y rechazamos A, a favor de A, sí este valor Pes menor o igual que d+. Finalmente, para 
probar la hipótesis 


aun nivel de significancia €x, calculamos 


P =2P(X < xcuando p = pp) 51. x< HPg 


P =<=2P(X =x cuando p = py) 5IX > MPg 


y rechazamos A, a favor de A, si el valor P calculado es menor o igual que e. 
Los pasos para probar una hipótesis nula acerca de una proporción contra varias 
alternativas usando las probabilidades binomiales de la tabla A.1 son los siguientes: 


1. A p=-= Py 
2. Una de las alternativas A: p < Py Pp >Pp,¿Op Á Py 
3. Elegir un nivel de significancia igual a e. 


5. Cálculos: obtener x, el número de éxitos, y calcular el valor P adecuado. 
6. Decisión: sacar las conclusiones apropiadas base en el valor E 
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Dos muestras: pruebas sobre dos proporciones 


A menudo surgen situaciones en las que se desea probar la hipótesis de que dos propor- 

ciones son iguales. Por ejemplo, podemos tratar de mostrar evidencia de que la proporción 
de médicos que A 
estado. Quizás un individuo decida dejar de fumar sólo si se 4 2 de que la propor- 

ción de fumadores con pulmonar excede a la UACIÓN. de no fumadores con ese 
tipo de cáncer. 

En general, deseamos probar la hipótesis nula de que dos proporciones, o paráme- 
tros binomiales, son iguales. Es decir, probamos p, = p, contra una de las alternativas 
P, ES P+P,>P,0p, Y p, Desde luego, esto es equivalente a probar la hipótesis nula 
de que p, — p, = Ú contra una de las alternativas p, —p, <0,p, —p,>UÚ00p, —p, $ 
(). El estadístico sobre el que basamos nuestra decisión es la variable aleatoria Pp, — P.. 
Se seleccionan al azar muestras independientes de tamaños n, y n, de dos poblaciones 
binomiales y se calcula la proporción de éxitos P, Y P,para las dos muestras. 

En la construcción de intervalos de confianza para p, y p, Observamos, para n, y 

a, suficientemente grandes, que el estimador puntual P, menos P, estaba distribuido de 
fran casi normal con media 





y varianza 





mm? _Piñh , PAR 
OB br UN] + Ma 


Por lo tanto, es posible establecer la(s) región(es) críticals) usando la variable normal 
estándar 


(Pp —P, E . 
z-=! 1 2) — (Pi pa) 





Cuando A, es verdadera, podemos sustituir p, = p,= p y q, = 9,=3 (donde p y q 
son los valores comunes) en la fórmula anterior para Z y obtener la forma 


Ñ P, —P, 
vpgíl fm +1/n2) 


Sin embargo, para calcular un valor de 4 debemos estimar los parámetros p y q que 
aparecen en el radical. Al agrupar los datos de ambas muestras el estimado agrupado 
de la proporción p es 

a. _ Mi +X2 
donde x, y x, son el número de éxitos en cada una ue las dos muestras. Al sustituir p por 
pyg= 1 — p por q, el valor 7 para probar p, = p, se determina a partir de la fórmula 


poh 
vpgo a + 1 fm) 


E 


Las regiones críticas para las hipótesis alternativas adecuadas se establecen como antes, 
utilizando puntos críticos de la curva normal estándar. En consecuencia, para la alter- 
nativa p, $ p,, al nivel de significancia Qe, la región crítica es 7 < —27,,02>2,.. Para 
una prueba donde la alternativa es p, < p,, la región crítica será 7 < —7 ; y cuando la 
alternativa es p, > p,, la región crítica será 1 > 2, 
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10.5. Pruebas de una y dos muestras referentes a varianzas 


En esta sección estudiaremos la prueba de hipótesis relacionada con varianzas O desvia- 
ciones estándar de la población. No son poco comunes las aplicaciones de pruebas de 
una y dos muestras sobre varianzas. Los ingenieros y los científicos constantemente se 
enfrentan a estudios donde se les pide demostrar que las mediciones que tienen que ver 
con productos o procesos cumplen con las especificaciones que fijan los consumidores. 
Las especificaciones a menudo se cumplen si la varianza del proceso es suficientemente 
pegueña. También existe interés por experimentos que comparan métodos O procesos 
donde la reproducibilidad o variabilidad inherentes se deben comparar de manera for- 
mal. Además, para determinar si no se cumple la suposición de varianzas iguales, con 
frecuencia se aplica una prueba que compara dos varianzas antes de llevar a cabo una 
prueba £ sobre dos medias. 

Empecemos por considerar el problema de probar la hipótesis nula A, de que la va- 
rianza de la población 0? es igual a un valor específico € contra una de las alternativas 
comunes 0 < 0,0 > 0,007 +0, El estadístico apropiado sobre el que basamos 
nuestra decisión es el estadístico chi cuadrada del teorema 8.4, el cual se utilizó en el 
capitulo 9 para construir un intervalo de confianza para (7. Por lo tanto, sí suponemos 
que la distribución de la población que se muestrea es normal, el valor de chi cuadrada 
para probar 0 = 6 es dado por 


>»  (m— 1)5? 


2 - 


+ 


donde » es el tamaño de la muestra, ses la varianza muestral y o es el valor de 0*dado 
por la hipótesis nula. Si A, es verdadera, y? es un valor de la distribución chi cuadrada 
con y =n — 1 grados de libertad. En consecuencia, para una prueba de dos colas a un 


nivel de significancia de, la región crítica es Y? < Y aja 90M” > Xx y Para la alternativa 
unilateral 6? < 65, la región crítica es y? < Xx ay para la alternativa unilateral (0- > Ta, 
la región crítica es y? > Y. 


Robustez de la prueba y? para la suposición de normalidad 


Tal vez el lector se habrá dado cuenta de que varias pruebas dependen, al menos en teo- 
ría, de la suposición de normalidad. En general muchos procedimientos en estadistica 
aplicada tienen fundamentos teóricos que dependen de la distribución normal. Estos 
procedimientos varían en el grado en que dependen de la suposición de la normalidad. 
AÁ un procedimiento que es razonablemente insensible a esta suposición se le denomina 
procedimiento robusto, es decir, robusto para la normalidad. La prueba y*sobre una 
sola varianza no es robusta en absoluto para la normalidad, es decir, el éxito práctico del 
procedimiento depende de la normalidad. Como resultado, el valor P calculado podria 
ser notoriamente diferente del valor P verdadero si la población de la que se toma la 
muestra no es normal. De hecho, resulta muy plausible que un valor P estadísticamente 
significativo no sea una verdadera señal de A: O $ 6, sino que un valor significativo 
sea el resultado de haber violado las suposiciones de normalidad. Por lo tanto, el analista 
debería utilizar esta prueba y* especifica con precaución. 





Ejemplo 10.12: | Un fabricante de baterías para automóvil afirma que la duración de sus baterías se distn- 
buye de forma aproximadamente normal una desviación estándar igual a 0.9 años. 
$1 una muestra aleatoria de 10 de tales baterías bene una desviación estándar de 1.2 años, 
¿Considera que Y > 0.9 años? Utilice un nivel de significancia de 0.05. 


Solución: 1. H:07=0.81. 
2. H:0?>081. 
A a =0.05. 


4. Región crítica: En la figura 10.19 vemos que se rechaza la hipótesis nula cuando x* 
> 16.919, donde y = — con y = 9 grados de libertad. 


165 


=u 





o 16.919 x 
Figura 10.19: Región crítica para la hipótesis alternativa > 0.9, 
5. Cálculos: s* = 1.44, n = 10 y 
2 (911.44) 


= 16.0, P = 0.07. 
0.81 


6. Decisión: El estadístico y?no es significativo al nivel 0.05. Sin embargo, con base 
en el valor P de 0.07, hay evidencia de que 7 > 0.9, J 
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10.6. Prueba de la bondad de ajuste 


A lo largo de este capítulo nos ocupamos de la prueba de hipótesis estadistica acerca de 
parámetros de una sola población, como a, * y p. Ahora consideraremos una prueba 
para determinar sí una población tiene una distribución teórica especifica. La prueba se 
basa en el nivel de ajuste que existe entre la frecuencia de ocurrencia de las observacio- 
nes en una muestra observada y las frecuencias esperadas que se obtienen a partir de la 
distribución hipotética. 

Para ilustrar lo anterior considere el lanzamiento de un dado. Suponemos que se trata 
de un dado legal, lo cual equivale a probar la hipótesis de que la distibución de resultados 
es la distribución uniforme discreta 


a xr=1,2,...,6. 


A 


fla) = 





Suponga que el dado se lanza 120 veces y que se registra cada resultado. Teóricamente, 
si el dado está balanceado, esperariamos que cada cara ocurriera 20 veces. Los resulta- 
dos se presentan en la tabla 10.4. 


Tabla 10.4: Frecuencias observadas y esperadas de 120 lanzamientos de un dado 








Cara 1 2 3 4 5 6 
Observadas 20 22 17 18 19 24 
Esperadas 20 20 20 20 20 20 


Al comparar las frecuencias observadas con las frecuencias esperadas cormespon- 
dientes debemos decidir s1 es posible que tales discrepancias ocurran como resultado 
de fluctuaciones del muestreo, de que el dado está balanceado o no es legal o de que la 
distribución de resultados no es uniforme. Es práctica común referirse a cada resultado 
posible de un experimento como una celda. En nuestro caso tenemos 6 celdas. Á conti- 
nuación se define el estadístico adecuado en el cual basamos nuestro criterio de decisión 
para un experimento que incluye £ celdas. 

Una prueba de la bondad de ajuste entre las frecuencias observadas y espera- 


das se basa en la cantidad. 
Prueba de la k ae 
bondad de ea y A 
ajuste $=1 Ej 


donde y “es un valor de una variable aleatoria cuya distribución muestral se aproxima 
muy de cerca a la distibución chi cuadrada con v = A -— 1 grados de libertad. Los sím- 
bolos e, y e representan las frecuencias observada y esperada, respectivamente, para la 
i-ésima celda. 

El número de grados de libertad asociado con la distribución chi cuadrada que se 
utiliza aquí es igual a k— 1, pues sólo hay £— 1 frecuencias de celdas libremente deter- 
minadas. Es decir, una vez que se determinan las frecuencias de k— 1 celdas, también se 
determina la frecuencia para la k-¿sima celda. 

51 las frecuencias observadas se acercan a las frecuencias esperadas correspondien- 
tes, el valor y será pequeño, lo cual indica un buen ajuste. $1 las frecuencias observadas 
difieren de manera considerable de las frecuencias esperadas, el valor y *será grande y el 
ajuste deficiente. Un buen ajuste conduce a la aceptación de A, mientras que un ajuste 


deficiente conduce a su rechazo. Por lo tanto, la región crítica caerá en la cola derecha 
de la distribución chi cuadrada. Para un nivel de significancia igual a y encontramos el 
valor crítico x7 de la tabla A.5 y, entonces, x? > x constituye la región crítica. El crite- 
rio de decisión que aquí se describe no se debería utilizar a menos que cada una de 
las frecuencias esperadas sea por lo menos igual a 5. Esta restricción podría requerir 
la combinación de celdas adyacentes, lo que dará como resultado una reducción en el 
número de grados de libertad. 
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En la tabla 10.4 encontramos que el valor y *es 
(20-20 (22-20) (17-20 


X= 20 20 
(18-20 (19-20 (24-207 
il 20 *— TFT =1.7. 


Si usamos la tabla A.5, encontramos Y, = 11.070 para v = 5 grados de libertad. 
Como 1.7 es menor que el valor crítico, no se rechaza A,. Concluimos que no hay suf- 
ciente evidencia de que el dado está desbalanceado. 

Como un segundo ejemplo probemos la hipótesis de que la distribución de fre- 
cuencias de la duración de baterías presentadas en la tabla 1.7 de la página 23 se puede 
aproximar mediante una distibución normal con media 4 = 3.5 y desviación estándar 
o = 0.7. Las frecuencias esperadas para las 7 clases (celdas) que se listan en la tabla 
10.5 se obtienen calculando las áreas bajo la curva normal hipotética que caen entre los 
diversos limites de clase. 


Tabla 10.5: Frecuencias observadas y esperadas para la duración de las baterias supo- 
mendo normalidad 





Límites de clase Di e; 
1.45—1.95 2 05 
1.952,45 | T 2.1 | 2.5 
245-205 a 5.9 
2.95-34.45 15 10.3 
3,453.95 10 10.7 
3.95 —4.45 5 





4.45—4.095 





En la tabla A.3 encontramos que el área entre 7, =-—0.79 y z, = —0.07 es 


área = P(—-0.79 < Z <-—0.07) = P(Z < —0.07) — P(Z < -0.79) 
= 0.4721 — 0.2148 = 0.2573, 
Por lo tanto, la frecuencia esperada para la cuarta clase es 
£4 = (0.2573140) = 10.3. 


5e acostumbra redondear estas frecuencias a un decimal. 
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La frecuencia esperada para el primer intervalo de clase se obtiene utilizando el área 
total bajo la curva normal a la izquierda del límite 1.95. Para el último intervalo de clase 
usamos el área total a la derecha del límite 4.45. Todas las demás frecuencias esperac 
se determinan utilizando el método que se describe para la cuarta clase. Observe que 
combinamos clases adyacentes en la tabla 10.5 donde las frecuencias esperadas son 
menores que 5 (una regla general en la prueba de la bondad de ajuste). En consecuencia, 
el número total de intervalos se reduce de 7 a 4, lo cual da como resultado v = 3 grados 
de libertad. Entonces, el valor y*es dado por 





a. U- 85 (158-103 (10-107 (810.5) 305 
2 85 103 10.7 10.5 77 

Como el valor y? calculado es menor que Y; = 7.815 para 3 grados de libertad, no 
tenemos razón para rechazar la hipótesis nula y concluimos que la distribución normal 
con 1 = 3,5 y = 0.7 proporciona un buen ajuste para la distribución de la duración de 
las baterías. 


La prueba de bondad de ajuste chi cuadrada es un recurso importante, en particular 
debido a que muchos procedimientos estadísticos en la práctica dependen, en un sentido 
teórico, de la suposición de que los datos reunidos provienen de un tipo de distribución 
especifico. Como ya se expuso, la suposición de normalidad se hace muy a menudo. En 
los siguientes capitulos continuaremos haciendo suposiciones de normalidad con el fin de 
proporcionar una base teórica para ciertas pruebas e intervalos de confianza. 

En la literatura hay pruebas para evaluar la normalidad que son más poderosas que 
la prueba chi cuadrada. Una de tales pruebas es la prueba de Geary, la cual se basa en 
un estadístico muy sencillo que es el cociente de dos estimadores de la desviación están- 
dar de la población €. Suponga que se toma una muestra aleatoria X,, X,...., X, de una 
distribución normal, Nu, 6). Considere el cociente 


yAJ2S XX |/m 


U > ¿DLL A 
y UX XP [nm 
ll i=1 


El lector debería reconocer que el denominador es un estimador razonable de «€ sin 
importar sí la distribución es normal o no. El numerador es un estimador de (7 s1 
la distribución es normal, pero podría sobrestimar o subestimar a Y cuando haya des- 
viaciones de la normalidad. Ási, los valores de € que difieren considerablemente de 1.() 
representan la señal de que se debe rechazar la hipótesis de normalidad. 

Para muestras grandes una prueba razonable se basa en la normalidad aproximada 
de U. El estadístico de prueba es, entonces, una estandarización de U' dada por 
_ uU-—1 
—0.2661/a/n 
Desde luego, el procedimiento de prueba incluye la región crítica bilateral. Calcula- 


mos un valor de z a partir de los datos y no rechazamos la hipótesis de normalidad 
cuando 


FA 


En la bibliografía se cita un artículo que trata sobre la prueba de Geary (Geary, 1947). 
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10.7. Prueba de la independencia (datos categóricos) 


El procedimiento de prueba de chi cuadrada que se presentó en la sección 10.11 también 
se puede usar para probar la hipótesis de independencia de dos variables de clasificación. 
Suponga que deseamos determinar 51 las opiniones de los votantes residentes del estado 
de lllinos respecto a una nueva reforma fiscal son independientes de sus niveles de 1n- 
greso. Los sujetos de una muestra aleatoria de 1000 votantes registrados del estado de 
Mbinois se clasifican de acuerdo su posición en las categorias de ingreso bajo, medio 
O alto, y sí están a favor o no de la nueva reforma fiscal. Las frecuencias observadas se 
presentan en la tabla 10.6, la cual se tabla de contingencia. 


Tabla 10.6: Tabla de contingencia 2 x 3 


Nivel de ingreso 
Reforma fiscal Bajo Medio Alto Total 
A favor 182 213 203 598 
En contra 154 138 110 402 
Total 336 351 313 100) 


Una tabla de contingencia con r renglones y € columnas se denomina tabla r Xx ec (Pr 
x ec” se lee “r por 2%). Los totales de renglones y columnas en la tabla 10.6 se denomi- 
nan frecuencias marginales. Nuestra decisión de aceptar o rechazar la hipótesis nula, 
A, de que la opinión de un votante respecto a la nueva reforma fiscal es independiente 
de su nivel de ingreso, se basa en qué tan bien se ajusten las frecuencias observadas en 
cada una de las 6 celdas de la tabla 10.6 y en las frecuencias que esperariamos para cada 
celda s1 supusiéramos que A, es verdadera. Para encontrar estas frecuencias esperadas 
definamos los siguientes eventos: 


E: Una persona seleccionada está en el nivel de ingresos bajo. 
M. Una persona seleccionada está en el nivel de ingresos medio. 
HA: Una persona seleccionada está en el nivel de ingresos alto. 


F: Una persona seleccionada está a favor de la nueva reforma fiscal. 





A: Una persona seleccionada está en contra de la nueva reforma fiscal. 


Podemos usar las frecuencias marginales para listar las siguientes estimaciones de 


probabilidad: 
2 336 a 351 e 313 
00 0 000 0 1000 
mi 8 y OZ 
LO= 000 24= 0 


Ahora bien, s1 A, es verdadera y las dos variables son independientes, deberiamos tener 


336 598 


pana rra (25 (22) 
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351 
P(MNF)=P(MP(F)= | — 
( ) (My PAE) 1000 
35 
1000 


P(MNA) = P (HH) P(A) = 6 
P(BNF) =P(H) P(F) = (000 


6 
o) li 
0) 


313 | 
P(HNDA) = P(H) P(A) = 7000 ) (2) 


Las frecuencias esperadas se obtienen multiplicando la probabilidad de cada celda 
por el número total de observaciones. Como antes, redondeamos estas frecuencias a un 
decimal. Así, se estima que el número esperado de votantes de bajo ingreso en nuestra 
muestra que favorecen la reforma fiscal es 


336 + / 598 (3361598) _e 
3 a) (1000) = 999 203 


cuando A, es verdadera. La regla general para obtener la frecuencia esperada de cual- 
quier celda es dada por la siguiente fórmula: 


1000 1000 / 


fe ds emperada = (total por columna | x ( total por renglón | 
gran total 

En la tabla 10.7 la frecuencia esperada para cada celda se registra entre parénte- 
sis, a un lado del valor observado verdadero. Observe que las frecuencias esperadas en 
cualquier renglón o columna se suman al total marginal apropiado. En nuestro ejemplo 
necesitamos calcular sólo las dos frecuencias esperadas en el renglón superior de la tabla 
10.7 y luego calcular las otras mediante sustracción. El número de grados de libertad 
asociados con la prueba chi cuadrada que aquí se usa es igual al número de frecuencias 
de celdas que se pueden llenar libremente cuando se nos proporcionan los totales mar- 
ginales y el gran total, y en este caso ese número es 2. Una fórmula sencilla que propor- 
ciona el número correcto de grados de libertad es 


v=(r—liíc—l). 


Tabla 10.7: Frecuencias observadas y esperadas 


Nivel de ingreso 
Reforma fiscal Bajo Medio Alto Total 
A favor 182 (200.9) — 213(2099) 203(187.2) 598 
En contra 154 (135.1) 138 (141.1) 110 (125.8) 402 
Total 336 351 313 1000 


Por lo tanto, para nuestro ejemplo v = (2— 113— 1) = 2 grados de libertad. Para 
probar la hipótesis nula de independencia usamos el siguiente criterio de decisión: 
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Prueba de Calcule 
independencia A (o; —eP 
yy 


E: 


donde la sumatoria se extiende a todas las celdas rc en la tabla de contingencia r x €. 
51 x*> x con v = (r— lc — 1) grados de libertad, rechace la hipótesis nula de inde- 
pendencia al nivel de significancia dr; en otro caso no la rechace. 

Al aplicar este enterito a nuestro ejemplo encontramos que 
2_ (182 200.997 (213 — 209.99 — (203 — 187.2) 


y 


200.9 209.9 187.2 
(154 —- 135.1) (138-141. (110-1258 — E 
135.1 141.1 125.8 A 
P =0.02. 


En la tabla A.5 encontramos que Xy = 5.991 para v = (2 — 113 — 1) = 2 grados de li- 
bertad. Rechazamos la hipótesis nula y concluimos que la opinión de un votante respecto 
a la reforma fiscal y su nivel de ingresos no son independientes. 

Es importante recordar que el estadístico sobre el cual basamos nuestra decisión 
tiene una distibución que sólo se aproxima por la distribución chi cuadrada. Los valores 
yx “calculados dependen de las frecuencias de las celdas y, en consecuencia, son discre- 
tos. La distribución chi cuadrada continua parece aproximarse muy bien a la distribución 
de muestreo discreta de y *, siempre y cuando el número de grados de libertad sea mayor 
que 1. En una tabla de contingencia de 2 x 2, donde sólo tenemos | grado de libertad, se 
aplica una corrección llamada corrección de Yates para continuidad. 

La fórmula corregida entonces se convierte en 

2 des (Jo; — ei] 0.54 
X (corregida) = 2 o 

51 las frecuencias de las celdas esperadas son grandes, los resultados corregidos y 
sin corrección son casi iguales. Cuando las frecuencias esperadas están entre 5 y 10, se 
debe aplicar la corrección de Yates. Para frecuencias esperadas menores que 5 se debería 
utilizar la prueba exacta de Fisher-Irwin. Un análisis de esta prueba se puede encontrar 
en Basic Concepts of Probability and Statistics de Hodges y Lehmann (2005; véase la 
bibliografía). Sin embargo, la prueba de Fisher-Irwin se puede evitar seleccionando una 
muestra grande. 





10.8. Prueba de Homogeneidad 


Cuando probamos la independencia en la sección 10.12 seleccionamos una muestra 
aleatoria de 1000 votantes, y determinamos al azar los totales de renglón y de columna 
para nuestra tabla de contingencia. Otro tipo de problema para el que se aplica el método 
de la sección 10.12 es aquel en el cual los totales de renglón y de columna están predeter- 
minados. Suponga, por ejemplo, que decidimos de antemano seleccionar 200 demócra- 
tas, 150 republicanos y 150 independientes entre los votantes del estado de Carolina del 
Norte y registrar sí están a favor de una iniciativa de ley para el aborto, si están en contra 
o si están indecisos. Las respuestas observadas se incluyen en la tabla 10.8. 


1-72 


Tabla 10.8: Frecuencias observadas 








Afiliación politica 
Ley para el aborto Demócrata Republicano Independiente Total 
A favor 82 70 62 214 
En contra 93 62 67 213 
Indeciso 25 18 21 6d 
Total 200 150 150 500 


Ahora bien, en vez de hacer una prueba de independencia, probamos la hipótesis de 
que las proporciones de población dentro de cada renglón son iguales. Es decir, proba- 
mos la hipótesis de que las proporciones de demócratas, republicanos e independientes 
que están a favor de la ley para el aborto son iguales; las proporciones de cada afiliación 
política contra la ley son iguales y las proporciones de cada afiliación política que están 
indecisos son iguales. Básicamente nos interesamos en determinar si las tres categorías de 
votantes son homogéneas en lo que se refiere a sus opiniones acerca de la iniciativa 
de ley para el aborto. A esta prueba se le conoce como prueba de homogeneidad. 

Al suponer homogeneidad de nuevo calculamos las frecuencias esperadas de las 
celdas multiplicando los totales de renglón y de columna correspondientes y después 
dividiendo entre el gran total. Luego continuamos el análisis utilizando el mismo esta- 
dístico chi cuadrada como antes. Dustramos este proceso en el siguiente ejemplo para 
los datos de la tabla 10.8. 


11. REGRESIÓN LINEAL SIMPLE Y CORRELACIÓN 
11.1.Introducción a la regresión lineal 


En la práctica a menudo se requiere resolver problemas que implican conjuntos de varia- 
bles de las cuales se sabe que tienen alguna relación inherente entre si. Por ejemplo, en 
una situación industrial quizá se sepa que el contenido de alquitrán en el flujo de salida 
de un proceso químico está relacionado con la temperatura en la entrada. Podría ser de 
interés desarrollar un método de pronóstico, es decir, un procedimiento que permita es- 
timar el contenido de alquitrán para varios niveles de temperatura de entrada a partir de 
información experimental. Desde luego, es muy probable que para muchos ejemplos 
concretos en los que la temperatura de entrada sea la misma, por ejemplo 1WPC, el con- 
tenido de alquitrán de salida no sea el mismo. Esto es muy similar a lo que ocurre cuando 
se estudian varios automóviles con un motor del mismo volumen; no todos tienen el 
mismo rendimiento de combustible. No todas las casas ubicadas en la misma zona 
del país, con la misma superficie de construcción, se venden al mismo precio. El conte- 
nido de alquitrán, el rendimiento del combustible (en millas por galón) y el precio de las 
casas (en miles de dólares) son variables dependientes naturales o respuestas en los tres 
escenanos. La temperatura en la entrada, el volumen del motor (pies cúbicos) y los me- 
tros cuadrados de superficie de construcción son, respectivamente, variables indepen- 
dientes naturales o regresores. Una forma razonable de relación entre la respuesta Y y 
el regresor x es la relación lineal, 


Y = Bj +Bix, 


en la que, por supuesto, 4, es la intersección y $, es la pendiente. Esta relación se ilus- 
tra en la figura 11.1. 

51 la relación es exacta y no contiene ningún componente aleatorio o probabilístico, 
entonces se trata de una relación determinista dos variables cientificas. Sm embargo, 
en los ejemplos que se mencionaron, asi como en muchos otros fenómenos científicos y 
de ingeniería, la relación no es determinista, es decir, una x dada no siempre produce el 
mismo valor de Y. Como resultado, los problemas importantes en este caso son de natu- 
raleza probabilistica, toda vez que la relación anterior no puede considerarse exacta. El 
concepto de análisis de regresión se refiere a encontrar la mejor relación entre Y y x 
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Figura 11.1: Una relación lineal; 3: intersección; 4 : pendiente. 


cuantificando la fuerza de esa relación, y empleando métodos que permitan predecir los 
valores de la respuesta dados los valores del regresor x. 

En muchas aplicaciones habrá más de un regresor, es decir, más de una vanable 
independiente que ayude a explicar a Y. Por ejemplo, si se tratara de explicar las razo- 
nes para el precio de una casa, se esperaría que una de ellas fuera su antigitedad, en cuyo 
caso la estructura múltiple de la regresión se podría escribir como 


Y =Bp+8Bx1 + 6x2, 


donde Fes el precio, x, son los metros cuadrados y x, es la antigitedad de la casa en años. 
En el capitulo AA se estudiarán problemas con regresores múltiples. El análisis 
resultante se denomina regresión múltiple; en tanto que el análisis del caso con un solo 
regresor recibe el nombre de regresión simple. En un segundo ejemplo de la regresión 
múltiple, un ingeniero químico podría estar interesado en la cantidad de hidrógeno que 
se ha perdido en las muestras de un metal específico que se tiene almacenado. En este 
caso habria dos entradas, x,, el htempo de almacenamiento en horas, y x,, la temperatura 
de almacenamiento en grados centígrados. De modo que la respuesta seria F, la pérdida de 
hidrógeno en partes por millón. 

En este capítulo estudiaremos el tema de la regresión lineal simple, que trata el 
caso de una sola variable regresora, en el que la relación entre x y y es lineal. Para el caso 
en el que hay más de una vanable regresora el lector debe consultar el capítulo 12. De- 
notemos una muestra aleatoria de tamaño n mediante el conjunto [(x. y); 1=1,2,...,n). 
Si se tomaran muestras adicionales utilizando exactamente los mismos valores de X, 5e 
esperaría que los valores de y variaran. Ási, el valor y, en el par ordenado (1, y) es el 
valor de cierta variable aleatoria Y. 

















11.2. regresión lineal simple 
Hemos limitado el uso del término análisis de regresión a los casos en los que las rela- 
ciones entre las variables no son deterministas, es decir, no son exactas. En otras pala- 
bras, debe existir un componente aleatorio en la ecuación que relaciona las variables. 
Este componente aleatorio toma en cuenta consideraciones que no son medibles o, de 


hecho, que los científicos o los ingenieros no comprenden. En realidad, en la mayoria 
de aplicaciones de la regresión, la ecuación lineal, digamos, Y = 3, + Bes una aproxi- 
mación que representa de manera simplificada algo desconocido y mucho más compli- 
cado. Por ejemplo, en el caso que implica la respuesta Y = contenido de alquitrán y x = 
temperatura de entrada es probable que Y = 8, + 8 x sea una aproximación razonable 
que podría funcionar dentro de un rango limitado de x. La mayoría de las veces los mo- 
delos que son simplificaciones de estructuras más complicadas y desconocidas son de 
naturaleza lineal, es decir, lineales en los parámetros $, y 3, o, en el caso del modelo 
que implica el precio, el tamaño y la antigiiedad de la casa, lineal en los parámetros [.. 
A, y 6,. Estas estructuras lineales son sencillas y de naturaleza empírica, por lo que se 
denominan modelos empirico: 
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Un análisis de la relación entre x y Y requiere el planteamiento de un modelo esta- 
dístico. Con frecuencia un estadístico utiliza un modelo como representación de un 
ideal que, en esencia, define cómo percibimos que el sistema en cuestión generó los 
datos. El modelo debe incluir al conjunto [x, y): ¡= 1,2...) de datos que implica 
pares de valores (x, y). No debemos olvidar que el valor de y, depende de x, por medio de 
una estructura lineal que también incluye el componente aleatorio. La base para el uso 
de un modelo estadístico se relaciona con la manera en que la variable aleatoria Y cambia 
con x y el componente aleatorio. El modelo también incluye lo que se asume acerca de 
las propiedades estadísticas del componente aleatorio. A continuación se presenta el 
modelo estadístico para la regresión lineal simple. La respuesta Y se relaciona con la 
variable independiente x a través de la ecuación 


Modelo de 
regresión lineal 
simple 


Y = 15% + Bix + €. 


en la cual 3, y 9, son los parámetros desconocidos de la intersección y la pendiente, 
respectivamente, y € es una variable aleatoria que se supone está distibuida con Ele) = 
y Var(e) = 07. Es frecuente que a la cantidad 07 se le denomine varianza del error o 

En el modelo anterior hay varias cuestiones evidentes. La cantidad Yes una variable 
aleatoria, ya que € es aleatoria. El valor x de la variable regresora no es aleatorio y, de 
hecho, se mide con un error despreciable. La cantidad €, que a menudo recibe el nombre 
de error aleatorio o alteración aleatoria, tiene varianza constante. Es común que a esta 
parte se le denomine suposición de varianza homogénea. La presencia de este error 
aleatorio € evita que el modelo se convierta tan sólo en una ecuación determinista. Aho- 
ra, el hecho de que E(€) = 0 implica que para una x especifica, los valores de y se distn- 
buyen alrededor de la recta verdadera o recta de regresión de la población v = $, + 
A x. Si se elige bien el modelo, es decir, si no hay otros regresores de importancia y la 
aproximación lineal es buena dentro de los rangos de los datos, entonces son razonables 
los errores positivos y negativos que rodean a la regresión verdadera. Debe recordarse 
que en la práctica 3, y 4, se desconocen y que deben estimarse a partir de los datos. 
Además, el modelo que se acaba de describir es de naturaleza conceptual. Como resul- 
tado, en la práctica nunca se observan los valores € reales, por lo que nunca se puede 
trazar la verdadera recta de regresión, aunque suponemos que ahi está. Sólo es posible 
dibujar una recta estimada. En la figura 11.2 se ilustra la naturaleza de los datos (x, y) 
hipotéticos dispersos alrededor de la verdadera recta de regresión para un caso en que 
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sólo se dispone de n = 5 observaciones. Debemos destacar que lo que observamos en la 
figura 11.2 no es la recta que utilizan el científico o ingeniero. En vez de esa recta, ¡lo 


que describe la ilustración es el significado de las suposiciones! Ahora describiremos la 
regresión que el usuario tiene a su disposición. 


y 


¡En 


¡Es Es 





Figura 11.2: Datos (x, y) hipotéticos dispersos alrededor de la verdadera recta de 
regresión para n = 5. 


La recta de regresión ajustada 


Un aspecto importante del análisis de regresión es, en términos sencillos, estimar los 
parámetros 3, y 6, es decir, estimar los llamados coeficientes de regresión. En la sec- 
ción siguiente se estudiará el método para estimarlos. Suponga que denotamos los esti- 
mados b, para (3, y b, para 8. Entonces. la recta de regresión ajustada, o estimada, es 
dada por 


Y = bo+ bx, 


donde y es el valor pronosticado o ajustado. Es evidente que la recta ajustada es un esti- 
mado de la verdadera recta de regresión. 5e espera que la recta ajustada esté más cerca 
de la verdadera línea de regresión cuando se dispone de una gran cantidad de datos. En 
el ejemplo siguiente se ilustra la recta ajustada para un estudio sobre contaminación 
en la vida real. 

Uno de los problemas más desafiantes que enfrenta el campo del control de la con- 
taminación del agua lo representa la industria de la peletería, ya que sus desechos son 
químicamente complejos; se caracterizan por valores elevados de la demanda de oxige- 
no químico, sólidos volátiles y otras medidas de contaminación. Considere los datos 
experimentales de la tabla 11.1, que se obtuvieron de 33 muestras de desechos tratados 
químicamente en un estudio realizado en Virginia Tech. Se registraron los valores de x, 
la reducción porcentual de los sólidos totales, y de y, el porcentaje de disminución de la 
demanda de oxigeno químico. 
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Otra mirada a las suposiciones del modelo 


Resulta aleccionador repasar el modelo de regresión lineal simple que se presentó con 
anterioridad y analizar de forma gráfica la manera en que se relaciona con la denomina- 
da regresión verdadera. Daremos más detalles en la figura 11.2, cuando ilustremos no 
sólo el lugar en que los €, se localizan en la gráfica, sino también lo que implica la supo- 
sición de normalidad para los E, 

Suponga que tenemos una regresión lineal simple con n = 6, valores de x equidis- 
tantes y un valor único de y para cada x. Considere la gráfica de la figura 11.4, la cual 
debería proporcionar al lector una representación clara del modelo y de las suposiciones 
implicadas. La recta que aparece en la gráfica es la recta de regresión verdadera. Los 
puntos graficados ( y, x) son puntos reales dispersos alrededor de la recta. Cada punto se 
ubica en su propia distribución normal, donde el centro de la distribución, es decir, la 
media de y, cae sobre la recta. Ciertamente esto es lo esperado, ya que E(Y) = 8, + Bx. 
Como resultado, la verdadera recta de regresión pasa a través de las medias de la res- 
puesta y las observaciones reales se encuentran sobre la distribución, alrededor de las 
medias. Observe también que todas las distribuciones tienen la misma varianza, que se 
denota con 07. Desde luego, la desviación entre una y individual y el punto sobre la 
recta será su valor individual €. Esto queda claro porque 


Yi — E(Y;) = y; — (Bm +fix:) = €;. 


Así, con una x dada, tanto Y como el € correspondiente tienen varianza (7. 






Así, con una x dada, tanto Y como el € correspondiente tienen varianza O”. 


x 
Figura 11.4: Observaciones individuales alrededor de la verdadera recta de regresión. 


Note también que aquí escribimos la verdadera recta de regresión como 4, = B,+8,x 
con el fin de reafirmar que la recta pasa a través de la media de la variable aleatoria Y. 


11.3. Propiedades de los estimadores de mínimos cuadrados 


Mínimos cuadrados y el modelo ajustado 


En esta sección se estudia el método para ajustar una recta de regresión estimada a los 
datos, lo cual equivale a determinar los estimados b, para 8, y b, para 8. Por supuesto, 


Residual: Error 
en el ajuste 


esto permite el cálculo de los valores pronosticados a partir de la recta ajustada y = Bb, 
+ bx, y otros tipos de análisis y de información diagnóstica que determinarán la fuerza 
de la relación, así como la adecuación y el ajuste del modelo. Antes de analizar el mé- 
todo de estimación de los mínimos cuadrados es importante presentar el concepto de 
residual. En esencia, un residual es un error en el ajuste del modelo y = b, +5. 


Dado un conjunto de datos de regresión [(1,. y) 1 = 1, 2...., nj y un modelo ajustado 
$, = hb, + bx, el i-ésimo residual e es dado por 


5 , p 
e =yi—)i, ¡=1,2,...,1. 


Es evidente que si un conjunto de » residuales es grande, entonces el ajuste del mo- 
delo no es bueno. Los residuales pequeños son indicadores de un ajuste adecuado. Otra 
relación interesante, y que a veces es útil, es la siguiente: 


Yi = bo + b1x; +€;. 


El uso de la ecuación anterior deberia aclarar la diferencia entre los residuales e, y los 
errores del modelo conceptual €. No debemos olvidar que, mientras que los €, no se 
observan, los e. no sólo se observan sino que desempeñan un papel importante en el 
análisis total. 

La figura 11.5 ilustra el ajuste de la recta a este conjunto de datos: a saber y = bh, + 
b,x, y la recta que refleja el modelo 4,,,= B,+8,x. Desde luego, 4, y 4, son parámetros 
desconocidos. La recta ajustada es un estimado de la recta que genera el modelo estadís- 
tico. Hay que tener presente que la recta ty = 8,+8,x es desconocida. 
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(X;, Fi) 


mi 


A 


yl: =Bp+ B4x 





Figura 11.5: Comparación de € con el residual e. 


Método de minimos cuadrados 


Debemos calcular b, y b,, los estimados de $, y B,. de manera que la suma de los cua- 
drados de los residuales sea mínima. La suma residual de los cuadrados con frecuencia 
se denomina suma de los cuadrados del error respecto de la recta de regresión y se 
denota como FCE. Este procedimiento de minimización para estimar los parámetros 


se denomina método de mínimos cuadrados. Por lo tanto, debemos calcular a y b para 
minimizar 
SCE = Y e? = Y (y $1? = Y (y —bo— bx Y. 


Al diferenciar la £CÉ con respecto a b, y b,, se obtiene 


MSCE - MSCE z 
a 2 = 2 Y y; — bo b1x5), mu = 2 Y Wi — bo — nx). 


Al igualar a cero las denrvadas parciales y reacomodar los términos, obtenemos las ecua- 
ciones siguientes (llamadas ecuaciones normales) 


nbgy +5 Y xi = Y y, by Y xi +b Y xi = Y Yi, 
i=1 i=1 ¡=1 i=1 i=1 
que se resuelven simultáneamente para obtener fórmulas de cálculo para b, y b.. 
Estimación de los Dada la muestra Lx, E ¿¡=1,2,...,a), los estimados b, y b, de los minimos cuadra- 


coeficientes dos de los coeficientes de regresión 6, y $, se calculan mediante las fórmulas 
de regresión | 


n > XiVi— ($ x,) (Ey) as — My; — F) 


bi an i=1 ¡=1 i= 


= == y 
n yx (5 5) 2 (xi — xy 
p=1 ui=1 i= 
E Vi — hh y XI; 
by = aim 1=1 =5 — bx 
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Media y varianza de los estimadores 
En la exposición que sigue mostramos que el estimador E, es insesgado para B,, Y 5e 
demuestran tanto las varianzas de B, como las de B.. Esto inicia una serie de procedi- 


mientos que ala prneba de inpútesisy a la einción de intervalos de confianza 
para la ioleosección y la pendiente. 


Como el estimador 
Va LF) Ya —1)Y, 
B = a e... __ 
Y (a; —1y Ya; ay 
i=1 i=1 
es de la forma y Y, 
d=1 
cs HE, is... 2 
Y lx —1)? 
¡=1 


podemos concluir a partir del teorema 7.11 que $, tiene una distribución (45, 4,) con 


tx — IM Bo +B1x;) y (Xx; — 105, gp 
Ha, =  _—_———_—— = 6 y Ti, . _ o ? D 
xj — EP o Xi — xp! 


También se puede demostrar (véase el ejercicio de repaso 11.60 de la página 438) 
que la variable aleatoria 8, se distribuye normalmente con 


media fig, = 4 y varianza Ts, = y? 
na» (x; — 1 
i=1 


Á partir de estos resultados es evidente que los estimadores de mínimos cuadrados 
tanto para 4, como para 4, son insesgados. 


Partición de la variabilidad total y estimación de (* 


Para hacer inferencias sobre 4, y 3, es necesario llegar a una estimación del parámetro 
G” que aparece en las dos fórmulas anteriores de la varianza de B, y B.. El parámetro q”, 
el modelo de la varianza del error, refleja una variación aleatoria o una variación del 
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error experimental alrededor de la recta de regresión. En gran parte de lo que sigue se 
recomienda emplear la notación 


Sa = Vi, Sy = VS = Y — DO 9). 
i=1 ¿=1 ¡=1 


De manera que la suma de los cuadrados del error se puede escribir como sigue: 


SCE = Y (y; —bo— bx = Y [0 —$) — bn — 2) 


i=1 =1 


€” —5y — 2h Da mo DY iy 
¡=1 i= 
=5, —2b15, + Es. =5y —B55, 
que es el paso final que surge del hecho de que b, = 5 ,, (3 xx. 


Teorema 11.1: Un estimador insesgado de 0? es 





q a SCE _ Li — $ ¡)* de — 3, 
ad n—? Es o 


El estimador de 0? como error cuadrado medio 


Para darnos una idea del estimador de 0? deberíamos observar el resultado del teorema 
11.1. El parámetro 0* mide la varianza o las desviaciones cuadradas entre los valores de 
Y y su media, dada por Ay, es decir, las desviaciones cuadradas entre Y y 8, + B,x. For 
supuesto, 3, + 4 se pole por medio de y = b, + b,x. Por consiguiente, tendría sen- 
tido que la varianza (7 se describa mejor como una desviación cuadrada de la observa- 
ción típica y, con respecto a la media estimada y. que es el punto correspondiente sobre 
la recta ajustada. Entonces, los valores (y, — y J revelan la varianza apropiada, de mane- 
ra muy similar a como los valores (y — y) miden la varianza cuando se realiza un 
muestreo en un escenario no relacionado con la regresión. En otras palabras, y estima la 
media en la última situación sencilla, mientras que y ¡estima la media de y, en una estruc- 
tura de regresión. Ahora, ¿qué significa el divisor n — 2? En las secciones que siguen 
observaremos que éstos son los grados de libertad asociados con el estimador s” de 07. 
En tanto que en el escenario 11d. (independiente e idénticamente distribuidas), la normal 
estándar se resta un grado de libertad de » en el denominador, para lo cual una explica- 
ción razonable es que se estima un parámetro, que es la media 1 por medio de, digamos, 
y. pero en el problema de la regresión se estiman dos parámetros, que son f, y 4,. por 
medio de b, y b.. Ási, el parámetro importante (”-, que se estima mediante 


* = 040/12, 
f=1 


se denomina error cuadrado medio, que describe un tipo de media (división entre n — 2) 
de los residuales cuadrados. 


181 


11.4. inferencias acerca de los coeficientes de regresión 


Intervalo de 
confianza para O, 


Además de tan sólo estimar la relación lineal entre x y F para fines de predicción, el ex- 
perimentador podría estar interesado en hacer ciertas inferencias acerca de la pendiente 
y la intersección. Para dar ocasión a la prueba de hipótesis y a la construcción de inter- 
valos de confianza para 3, y 6, debemos estar dispuestos a hacer la suposición adicional 
de que cada €, ¿ = 1, 2,..., a, se distribuye de forma normal. Esta suposición implica que 
F. Free r, también están distribuidas normalmente, cada una con una distribución de 
probabilidad n(y; 9, + 4 x, 07). 

Á partir de la sección 11.4 sabemos que B, tiene una distribución normal, y supo- 
miendo normalidad, un resultado muy parecido al que se plantea en el teorema 8.4 nos 
permite concluir que (n — 215/07 es una variable chi cuadrada con n — 2 grados de 
libertad, independiente de la variable aleatoria £,. Entonces, el teorema 8.5 garantiza que 
el estadistico 





- Bi-B0Mo/WS3) _ Br Br 

50 $ yS dde 
tenga una distribución £ con 1 — 2 grados de libertad. Podemos utilizar el estadístico Y 
para construir un intervalo de confianza del 100(1 — (04)% para el coeficiente B, ¡ 


7 


Un intervalo de confianza de 100(1 — 04% para el parámetro 8, en la recta de regresión 
Hy, = B, + Ba Ss 
5 , 5 
tapa <A <h += 


donde £. ¡a Es un valor de la distibución í con n — 2 grados de libertad. 


Prueba de hipótesis sobre la pendiente 


Para probar la hipótesis nula A, de que 3, = f,,, en comparación con una alternativa 
posible, utilizamos de nuevo la distribución £ con n — 2 grados de libertad con el fin de 
establecer una región crítica y después basar nuestra decisión en el valor de 
_ 

HS 


El método se ilustra con el ejemplo siguiente. 





f 


Inferencia estadistica sobre la intersección 


Los intervalos de confianza y la prueba de hipótesis del coeficiente 3, se podrían estable- 
cer a partir del hecho de que E, también se distribuye de forma normal. No es dificil 
demostrar que 

Bo —B 


5 ¡ Y 12/(18,,) 


r= 
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(a) (bj) 
Figura 11.9: Se rechaza la hipótesis de que H,: 8, =0. 


tiene una distribución ? con 1 — 2 grados de libertad, de manera que podemos construir 
un intervalo de confianza de 1001 — 0% para 0. 


Intervalo de Un intervalo de confianza de 100(1 — )% para el parámetro $, en la recta de regresión 
confianza para 4, pl mm = B_+Bxes 








Y 1? < Bo < bo + tay 


Ñ 5 E E 
do — tap NS. AÑ pa y q 2, Jl 


donde 1 


af 


es un valor de la distribución £ con n— 2 grados de libertad. 


Una medida de la calidad del ajuste: el coeficiente de determinación 


Observe en la figura 11.7 que aparece un elemento denotado con R-5q, cuyo valor es 
01.3%. Esta cantidad, R”, se denomina coeficiente de determinación y es una medida 
de la proporción de la variabilidad explicada por el modelo ajustado. En la sección 
11.8 se presentará el concepto del método del análisis de varianza para la prueba de 
hipótesis en la regresión. El enfoque del análisis de varianza utiliza la suma de los cua- 


drados del error SCE = (y; — $1 y la suma total de los cuadrados corregida STCC 


E 4 E | ia | 
= 2. Uv; — Fi). Esta última representa la variación en los valores de respuesta que 
idealmente serían explicados con el modelo. El valor de la 5CE es la variación debida al 
error, o la variación no explicada. Resulta claro que si la $5CE = 0, toda variación 
queda explicada. La cantidad que representa la variación explicada es STOC— CE. Res el 


SCE 
Coeficiente de determinación: R? =] -=——. 
DOENCIEON E£ErnmanaCcion STCC 


Advierta que si el ajuste es perfecto, todos los residuales s0n cero, y asi R* = 1.0. Pero 
sl la SE es tan sólo un poco menor que la ST CC, R* = 0. Observe en la salida de resul- 
tados de la figura 11.7 que el coeficiente de determinación sugiere que el modelo ajustado 
a los datos explica el 91.3% de la vanabilidad observada en la respuesta, la reducción en 
la demanda de oxigeno químico. 

La figura 11.10 ofrece ejemplos de una gráfica con un buen ajuste (R* = 1.0) en a) 
y una gráfica con un ajuste deficiente (R* = 0) en b). 
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Errores en el uso de R* 


Los analistas citan con mucha frecuencia los valores de A“, quizá debido a su simplici- 
dad. 5in embargo, hay errores en su interpretación. La confiabilidad de R* depende del 





a RA =1.0 byR=0 
Figura 11.10: Gráficas que ilustran un ajuste muy bueno y otro deficiente. 


tamaño del conjunto de los datos de la regresión y del tipo de aplicación. Resulta claro 
que 0 < KR" < 1, y el límite superior se logra cuando el ajuste a los datos es perfecto, 
es decir, cuando todos los residuales son cero. ¿Cuál es un valor aceptable de R*? Se 
trata de una pregunta difícil de responder. Un químico encargado de establecer una cali- 
bración lineal de una pieza de equipo de alta precisión seguramente esperaría obtener un 
valor muy alto de A” (quizá superior a 0.99); mientras que un científico del comporta- 
miento, que trabaja con datos en los que influye la variabilidad de la conducta humana, 
quizá se sentiría afortunado si obtuviera un valor de K* de hasta 0.70. Un individuo con 
experiencia en el ajuste de modelos tiene la sensibilidad para saber cuándo un valor es 
suficientemente grande dada la situación que está enfrentando. Es evidente que algunos 
fenómenos científicos se prestan más a un modelamiento más preciso que otros. 


Es peligroso usar el criterio de R” para comparar modelos en competencia para el 
mismo conjunto de datos. Cuando se agregan términos adicionales al modelo, por ejem- 
plo un regresor más, disminuye la S$CE, lo que provoca que R* aumente (o al menos no 
disminuya). Esto implica que R” se puede volver artificialmente elevado por medio de la 
práctica inapropiada de sobreajustar, es decir, de incluir demasiados términos en el 
modelo. Por consiguiente, el incremento inevitable de R* que se logra al agregar térma- 
nos adicionales no implica que éstos se necesitaban. En realidad, el modelo simple puede 
ser mejor para predecir los valores de la respuesta. En el capítulo 12, cuando se presente 
el concepto de los modelos que implican más de un solo regresor, se estudiará con 
detalle el papel del sobreajuste y su mfluencia sobre la capacidad de predicción. En este 
momento baste decir que para seleccionar un modelo no se debe adoptar un proceso de 
selección que sólo incluya la consideración de R?. 





11.5. Predicción 


Hay varias razones para construir un modelo de regresión lineal. Una de ellas es, desde 
luego, predecir valores de respuesta para uno o más valores de la variable independiente. 
En esta sección se centra el enfoque en los errores asociados con la predicción. 
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La ecuación y = b, y b,x se puede utilizar para predecir o estimar la respuesta me- 
día Ly¡,, enx = Los donde x, no necesariamente es uno de los valores preestablecidos, o 
cuando x = x,, se podría emplear para pronosticar un solo valor y, de la variable Y. 5e 
esperaría que el error de predicción fuera mayor para el cazo de un solo valor pronosti- 
cado que para aquel en que se predice una media. Entonces, esto afectaría la anchura de 
los intervalos para los valores que se predicen. 

suponga que el experimentador desea construir un intervalo de confianza para My; xy. 
En tal caso debe usar el estimador puntual Y, = B, y B x, para estimar yx, = 4, + 8 x. 


5e puede demostrar que la distribución muestral de Y, es normal con media 
My lx, = E(Yo)= E(Bo +B1x0) = Bo + BiXo = Py jx, 


y varianza 
l (x xy 
e A AP | +*— | 


n Su 


esta última surge del hecho de que Cov(Y,, B,) =0 (véase el ejercicio de repaso 11.61 
de la página 438). Por consiguiente, ahora podemos construir un intervalo de confian- 
za de 100(1 — 0% sobre la respuesta media ty, a partir del estadistico 


Yo _ My lra 
Ln + (0 850 
que tiene una distribución í con n — 2 grados de libertad. 


== 





Intervalo de Un intervalo de confianza de 100(1 — 0% para la respuesta media Ly; ,, es 





confianza 

para fly, — _—— 
A ll" (xp xP mn ¡1 . (xp —1P 
Yo — 135 y + — GT E Br po E o +iaj25 V S + ==” 


f.  esun valor de la distibución £ con n — 2 grados de libertad. 
en/2 


Predicción del intervalo 


Otro tipo de intervalo que con frecuencia se malinterpreta y se confunde con aquel dado 
para Jl,,, es el intervalo de la predicción para una respuesta futura observada. En real1- 
dad, en muchos casos el intervalo de la predicción es más relevante para el científico o 
el ingeniero que el intervalo de confianza sobre la media. En el ejemplo del contenido de 
alquitrán y la temperatura de entrada, mencionado en la sección 11.1, seguramente sería 
interesante no sólo estimar la media del contenido de alquitrán a una temperatura espe- 
cifica, sino también construir un intervalo que refleje el error en la predicción de una 
cantidad futura observada del contenido de alquitrán a la temperatura dada. 

Para obtener un intervalo de predicción para cualquier valor único y, de la variable 
Y, es necesario estimar la varianza de las diferencias entre las ordenadas de obtenidas de 
las rectas de regresión calculadas en el muestreo repetido cuando x =x,, y la ordenada 
verdadera correspondiente y, . Podriamos considerar la diferencia Y, - y, como un valor 
de la variable aleatoria Y,, — Y, cuya distribución muestral se podría demostrar que es 
normal con media 


Hs, —y, = Elo — Yo) = ElBo +B 1x0 — (80 +B1X0 +60) =0 
y varianza 


2 _,.? a od =o7|1 : a de EF 
e —Yo =— Or +B 1x0 = OPE) == id a” $ 
LIT 
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Asi, un intervalo de predicción de 100(1 — 0% para un solo valor pronosticado y, se 
puede construir a partir del estadístico 


Ya — Fo 





Sy 14 1/n + (0 3 /Sx5 
que tiene una distribución 1 con n— 2 grados de libertad. 
Intervalo de Un intervalo de predicción de 100(1 — 0% para una sola respuesta y, es dado por 


predicción 





rx ip se | 1 
o ) AUN A 


(Xp — 1) 
PA : 


| 
A a 2 
Yo — Eap25 y + e + Sa 


donde f. es un valor de la distibución f con n — 2 grados de libertad. 


Es claro que hay una diferencia entre el concepto de un intervalo de confianza y el 
del intervalo de predicción antes descrito. La interpretación del intervalo de confianza es 
idéntica a la que se describió para todos los intervalos de confianza sobre los parámetros 
de la población estudiados en el libro. De hecho, Ay, es un parámetro de la población. 
Sin embargo, el intervalo de la predicción calculado representa un intervalo que tiene 
una probabilidad igual a 1 — a: de contener no un parámetro sino un valor futuro de y, de 
la variable aleatoria Y. 


11.6. elección de un modelo de regresión 


Gran parte de lo que se ha presentado hasta ahora acerca de la regresión que involucra 
una sola variable independiente depende de la suposición de que el modelo elegido es 
correcto, la suposición de que £y¡, $e relaciona con x linealmente en los parámetros. 
Es cierto que no se esperaría que la predicción de la respuesta fuera buena si hubiera 
diversas variables independientes que no se tomaran en cuenta en el modelo, que afectaran 
la respuesta y vanaran en el sistema. Además, la predicción seguramente sería inadecuada 
s1 la estructura verdadera que relaciona £y7, con x fuera extremadamente no lineal en el 

Es frecuente que se utilice el modelo de regresión lineal simple aun cuando se sepa 
que el modelo no es lineal o que se desconozca la estructura verdadera. Este método 
suele ser acertado, en particular cuando el rango de las x es estrecho. De esta manera, el 
modelo que se utiliza se vuelve una función de aproximación que se espera sea una re- 
presentación adecuada del panorama verdadero en la región de interés. Sm embargo, hay 
que señalar el efecto que tendría un modelo inadecuado sobre los resultados presentados 
hasta este momento. Por ejemplo, si el modelo verdadero, desconocido para el expert- 
mentador, es lineal en más de una x, digamos, 


Año. = Bo + Px1 + Baxa, 


entonces el estimado b, = 5.33. de los minimos cuadrados ordinarios que se calcula 
considerando tan sólo x, en el experimento es, en circunstancias generales, un estimado 
sesgado del coeficiente 3,. donde el sesgo es una función del coeficiente adicional 3, 
(véase el ejercicio de repaso 11.65 en la página 438). Asimismo, el estimado s* para 07 
es sesgado debido a la variable adicional. 
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11.7. procedimiento del análisis de varianza 


Con frecuencia el problema de analizar la calidad de la recta de regresión estimada se 
maneja por medio del método del análisis de varianza (ANOVA), que es un procedi- 
miento mediante el cual la variación total de la variable dependiente se subdivide en 
componentes significativos, que luego se observan y se tratan en forma sistemática. El 
análisis de varianza, que se estudia en el capítulo 13, es un recurso poderoso que se em- 
plea en muchas situaciones. 

Suponga que tenemos » puntos de datos experimentales en la forma usual (x, y ) y 
que se estima la recta de regresión. En la sección 11.4 para la estimación de 07 se esta- 
bleció la identidad 

Syy = By +35CE. 


Una formulación alternativa y quizá más informativa es la siguiente: 


S (y += Y, — 1 + Y — $4)”. 
¡=1 ¿=1 


i=1 


Logramos hacer una partición de la suma total de los cuadrados corregida de y en dos 
componentes que deberían proporcionar un significado particular para el experimenta- 
dor. Esta partición se debería indicar en forma simbólica como 


STCC =<=8SCR +85CE. 


El primer componente de la derecha, 4€R, se denomina suma de cuadrados de la re- 

gresión y refleja la cantidad de variación de los valores y que se explica con el modelo, 

que en este caso es la línea recta postulada. El segundo componente es la ya conocida 

suma de cuadrados del error, que refleja la variación alrededor de la recta de regresión. 
Suponga que nos interesa probar la hipótesis 


Hoy: B,1 = 0 en comparación con H¡: 4, 40, 


donde la hipótesis nula en esencia dice que el modelo es iy¡, = 9,; es decir, la variación 
en los resultados F debida a las fluctuaciones de probabilidad o aleatorias que son inde- 
pendientes de los valores de x. Esta condición se refleja en la figura 11.106). En las 
condiciones de esta hipótesis nula se puede demostrar que 5CR fa”, y SCE fa” son va- 
lores de variables chicuadradas independientes con 1 y n— 2 grados de libertad, respec- 
tivamente y, usando el teorema 7.12, se sigue que S$TCC a” también es un valor de una 
variable chi cuadrada con a — 1 grados de libertad. Para probar la hipótesis anterior 
calculamos 


SER 1 SER 


OSCE/(m—D) y 
y rechazamos A, al nivel de significancia dt cuando f > fall,n — 2). 

Por lo general los cálculos se resumen mediante las medias de una tabla de análisis 
de varianza, como se indica en la tabla 11.2. Es costumbre referirse a las distintas sumas 
de los cuadrados divididos entre sus respectivos grados de libertad como cuadrados 
medios. 

| Tabla 11.2: Análisis de varianza para la prueba de 9, = 0 

Fuente de Suma de — Grados de Cuadrado 





variación cuadrados — libertad medio fealculada 
Regresión SER l S5ER uE 
Error SÍCE n—2 só = — 


Total - STCC on—1 
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Cuando se rechaza la hipótesis nula, es decir, cuando el estadístico F calculado ex- 
cede al valor critico f (1, n — 2), concluimos que hay una cantidad significativa de 
variación en la respuesta justificada por el modelo postulado, que es la función 
de la línea recta. Si el estadístico F está en la región de no rechazo, se concluye que los 
datos no reflejan evidencia suficiente para apoyar el modelo que se postula. 

En la sección 11.5 se presentó un procedimiento donde se usa el estadistico 


T= Bi, — Bn 
5/5 
para probar la hipótesis 
Hu: 8 = Bmw Hi: B1 + Bu, 


donde 7 sigue la distribución £ con n—2 grados de libertad. La hipótesis se rechaza sl 
lr] > f, PAra un nivel de significancia dr. Es interesante observar que en el caso especial 


en que probamos 


Huy: 8 =0en comparación con H,: 8, +0, 
el valor del estadístico 7 se convierte en 


by 
f= A 
sis 


y la hipótesis a considerar es idéntica a la que se prueba en la tabla 11.2. En otras palabras, 
la hipótesis nula establece que la variación en la respuesta se debe tan sólo al azar. El 
análisis de varianza utiliza la distribución F en vez de la distribución £. Para la alternativa 
bilateral ambos enfoques son idénticos. Esto se observa s1 se escribe 








que da como resultado un valor idéntico al valor futilizado en el análisis de varianza. La 
relación fundamental entre la distribución £ con y grados de libertad y la distribución F 
con l y y grados de libertad es 


P =f(1 v. 


Desde luego, la prueba £ permite probar en comparación con una alternativa unilateral, 
en tanto que la prueba F está restringida a una prueba en comparación con una alternati- 
va bilateral. 


11.8. Prueba de la linealidad de la regresión datos con observaciones repetidas 


En ciertos tipos de situaciones experimentales el investigador tiene la capacidad de etec- 
tuar observaciones repetidas de la respuesta para cada valor de «. Aunque no es necesario 
tener dichas repeticiones para estimar 8, y $, las repeticiones permiten al experimenta- 
dor obtener información cuantitativa acerca de lo apropiado que resulta el modelo. De 
hecho, si se generan observaciones repetidas, el investigador puede efectuar una prueba 
de significancia para determinar s1 el modelo es o no adecuado. 
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The regression 


egquation ia COD = 


Predictor Coef SE Coef T BP 
Conetant 3.830 1.768 a. 17 0.038 
Per Red 0.30364 O0.05012 18.023 0.000 
S = 3.22954 R-£q = 91.3% R-Sqladj ) = 91.0% 
Analysis of Variance 
Source DF ss HS F BP 
Regression J 2190.86 32190.6 325.08 0.000 
Residual Error 231 323.3 10.4 
Total 32 3713.39 
Olba Per Red 2obD Fit SE Fit Residual sE 
1 3.0 5.000 6-541 1.627 -1.541 
2 36.0 24.000 36.161 D.576 -2.361 
3 7-0 11.000 10.155 1.440 0.B45 
1 37.0 36.000 37.264 D.5%90 -1.264 
5 11.0 21-000 13.770 1.58 77-230 
6 38.0 38.000 18.165 D.607 -0.168 
7 15.0 16.000 17.184 1.082 -1.384 
B 39.0 37.000 39.072 0.627 2.072 
Ej 18.0 16.000 20.095 0.957 -4 095 
10 39.0 36.000 39.072 D.627 3.072 
11 27.0 28.000 ¿28.228 0.649 -0.22B 
12 39.0 45.000 39.072 D.-627 5-92B8 
123 29.0 27.000 30.035 D.605 -3.035 
14 40.0 39.000 319.475 0.651 0.975 
15 30.0 25.000 30.939 0.588 -5.939 
16 41.0 41.000 40.873 D.67B 0.121 
17 30.0 35-000 30-939 0.588 4.061 
15 42.0 40.000 41.7B2 D.T7OT -1.78B3 
13 31.0 30.000 31.842 D.575 -1.843 
20 42.0 44.000 41. 7B3 0.707 2.217 
al 31.0 40.000 231.842 0.575 B.157 
2z 43.0 37.000 42.6B6 D.73B -5.686 
ZA 32.0 32.000 132.746 0.567 -0.746 
2a 44.0 44.000 431.590 D.TIT2 0.410 
25 33.0 34.000 13.650 0.563 0.350 
26 45.0 46.000 44.494 0.807 1.506 
27 33.0 32.000 33.650 0.563 -1.650 
28 46.0 46.000 45.197 D.B4x3 0.603 
29 34.0 24.000 34.554 0.563 -0.554 
30 47.0 49.000 46.301 0.B81 2.6939 
31 36.0 347-000 36.161 D.576 0.639 
34 50.0 51.000 49.012 1.002 1.988 
33 36.0 38.000 36.361 0.576 1.633 


Figura 11.14: Salida de resultados de MINFTAB de la regresión lineal simple para los 


datos de reducción de la demanda de oxígeno químico; parte 1. 


3.83 + 0.904 Per Red 


Resid 
-0.55 
-0.74 
0.29 
-0.40 
2.43 
-D.D05 
-0.45 
-D0.65 
-1.33 
-D0.97 
-4.07 
1.87 
-0.%96 
-D0.31l 
-1.B7 
0.04 
1.2B 
-0.57 
-0.58 
0.70 
2.57 
-1.B1 
-0.23 
0.123 
0.11 
0.4B 
-0.52 
0.19 
-0.17 
0.87 
0.20 
0.65 
0.52 


Seleccionemos una muestra aleatoria de n observaciones utilizando £ valores distin- 
tos de x, por ejemplo, x,. X....., X,, tales que la muestra contenga n, valores observados de 
la variable aleatoria Y, correspondientes a los valores .x,, con 1, valores observados de F, 
correspondientes a X,...., 1, valores observados de Y, correspondientes a 1. Necesaria- 


mente, 1 = a ñ;. 


f=l 
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lO 00 -<) 4 Ln $ lu A 


ZO 


Fit 
6.541 
36.361 
10.155 
37.264 
13.770 
38.168 
17.384 
39.072 
20.095 
39.072 
28.228 
39.072 
30-035 
39.975 
30.935 
40.873 
30-933 
41.783 
31.843 
41.783 
31.843 
42.686 
32.746 
43.590 
33.650 
44.494 
33.650 
45.397 
34-554 
46.301 
36.361 
49.012 
36.361 


SE Fit 


1.627 
0.576 
1.440 
0.5390 
1.258 
0.607 
1.082 
0.627 
0.957 
0.627 
0.6439 
0.627 
0.605 
0.651 
0.588 
0.678 
0.588 
0.707 
0.575 
0.707 
0.575 
0.738 
0.567 
0.TTZ 
0.563 
0.807 
0.563 
0.B43 
0.563 
0.BB1 
0.576 
1.002 
0.576 
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(35.185, 
(46.969, 
(35.185, 
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39.405] 
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22.047) 
40.351) 
29.551) 
40.351) 
31.269) 
41.303) 
32.139) 
42.261) 
32.139) 
43.224) 
33.016) 
43.224) 
33.016] 
44.192) 
33.902] 
45.164) 
34.797) 
46.139) 
34.797) 
47.117) 
35.701) 
48.099) 
37.537) 
51.055] 
37.537) 
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(32.362, 
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(32.362, 
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(35.040, 
(25.152, 
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.781) 
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Figura 11.15: Salida de resultados de MINFTAB de la regresión lineal simple para los 
datos de reducción de la demanda de oxígeno químico; parte IL. 


Definimos 


y, = el f-ésimo valor de la variable aleatoria Y, 


E 
po. 
| 


rn; 


j=1 


Entonces, si se realizaron n, = 3 mediciones de Y que corresponden a x = x,, estas ob- 
servaciones se indicarían por medio de y,,, Y,, Y Y,,- Por lo tanto, 


El concepto de la falta de ajuste 


Ti, =Ya41 + Ya2 + ya3- 


La suma de cuadrados del error consta de dos partes: la cantidad debida a la variación 
entre los valores de Y dentro de valores dados de x, y un componente que normalmente 
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se denomina contribución a la falta de ajuste. El primer componente refleja tan sólo la 
variación aleatoria, o error experimental puro, en tanto que el segundo es una medida 
de la variación sistemática introducida por los términos de orden superior. En nuestro 
caso éstos son términos de x distintos de la contribución lineal o de primer orden. Obser- 
ve que al elegir un modelo lineal en esencia asumimos que este segundo componente no 
existe y que, en consecuencia, la suma de cuadrados del error se debe por completo a 
errores aleatorios. Si éste fuera el caso, entonces s* = £CE ((n— 2) es un estimado inses- 
gado de 6. Sin embargo, si el modelo no se ajusta a los datos en forma apropiada, en- 
tonces la suma de cuadrados del error estará inflada y producirá un estimador sesgado de 
O”. Ya sea que el modelo se ajuste o no a los datos, siempre que se tienen observaciones 


repetidas es posible obtener un estimador insesgado de * calculando 


Cálculo 

de la suma de los 
cuadrados de la 
falta de ajuste 


0 —H F 
== ———> ia Ld 2 


para cada uno de los £ valores distintos de x y, después, agrupando estas varianzas, tenemos 


Y (n; — 1)s? > Y y Y 


7 ¡=1 E o! de : 


n—kák n—k 


El numerador de s* es una medida del error experimental puro. Á continuación se 
presenta un procedimiento de cálculo para separar la suma de los cuadrados del error en 
los dos componentes que representan el error puro y la falta de ajuste: 


1. Calcular la suma de los cuadrados del error puro 


Eon 
7 S (y — Y y 


i=l ¡¿=1 


Esta suma de cuadrados tiene n— k grados de libertad asociados con ella, y el cuadrado 
medio resultante es el estimador insesgado s” de (77. 
2. Restar la suma de los cuadrados del error puro de la suma de los cuadrados del error, 
SCE, con lo que se obtiene la suma de los cuadrados debida a la falta de ajuste. Los 
S : de rioja das la falta de ajuste también se obtienen simplemente restando 
(n—2) — (n—k) = k-2 


Los cálculos necesarios para probar hipótesis en un problema de regresión con medicio- 
nes repetidas de la respuesta se pueden resumir como se muestra en la tabla 11.3. 

Las figuras 11.16 y 11.17 ilustran los puntos muestrales para las situaciones del 
“modelo correcto” y del “modelo incorrecto”. En la figura 11.16, donde y, cae sobre 
una línea recta, no hay falta de ajuste cuando se asume un modelo lineal, por lo que 
la variación muestral alrededor de la recta de regresión es un error puro que resulta de la 
variación que ocurre entre observaciones repetidas. En la figura 11.17, donde es evidente 
que (ty), no cae sobre una línea recta, la responsable de la mayor parte de la variación 
alrededor de la recta de regresión, además del error puro, es la falta de ajuste que resulta 
de seleccionar por error un modelo lineal. 
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Tabla 11.3: Análisis de varianza para la prueba de linealidad de la regresión 





Fuente de suma de Grados de Cuadrados 

variación cuadrados libertad medios fcealculada 
Regresión SER l SER => 
Error SCE n= 2 

| E E o a S5CE-SCE (¡puro 

Falta de ajuste | SCE-ASCE (puro) k-—2 E" 
Error puro ¿CE (puro) n—k 
Total STCC n—l 





Figura 11.16: Modelo lineal correcto con Figura 11.17: Modelo lineal incorrecto con 
componente sin falta de ajuste. componente de falta de ajuste. 


¿Por qué es importante detectar la falta de ajuste? 


El concepto de falta de ajuste es muy importante en las aplicaciones del análisis de re- 
gresión. De hecho, la necesidad de construir o diseñar un experimento que tome en 
cuenta la falta de ajuste se vuelve más crítica a medida que el problema y el mecanismo 
subyacente implicados se vuelven más complicados. Es cierto que no slempre se puede 
tener la certeza de que la estructura que se postula, en este caso el modelo de regresión 
lineal, sea una representación correcta o incluso adecuada. El ejemplo siguiente muestra 
la manera en que se parte la suma de cuadrados del error en los dos componentes que 
representan el error puro y la falta de ajuste. Lo adecuado del modelo se prueba al nivel 
de sigmbicancia (*, comparando el cuadrado medio de la falta de ajuste dividido entre s* 
con f (k— 2, n—k). 
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11.9. Gráficas y transformaciones de datos 


En este capitulo se estudia la construcción de modelos de regresión en los que hay una 
variable independiente o regresora. Ádemás, se supone que durante la construcción del 
modelo tanto x y entran en el modelo en forma lineal. Con frecuencia es aconseja- 
ble trabajar con un modelo alternativo en el que x 0 y (o ambas) intervengan en una 
forma no lineal. 5e podría recomendar una transformación de los datos debido a consi- 
deraciones teóricas inherentes al estudio científico, o bien, una simple graficación de los 
datos podría sugerir la necesidad de reexpresar las variables en el modelo. La necesidad 
de llevar a cabo una transformación es muy fácil de diagnosticar en el caso de la regre- 
sión lmeal simple, ya que las gráficas en dos dimensiones brindan un panorama verda- 
dero de la manera en que las vanables se comportan en el modelo. 

Un modelo en el que x 0 y se transforman no debería considerarse como un modelo 
de regresión no lineal. Por lo general denominamos a un modelo de regresión como l1- 
neal cuando es lineal en los parámetros. En otras palabras, suponga que el aspecto de 
los datos u otra información científica sugiere que debe hacerse la regresión de y* 
comparación con la de x*, donde cada una de ellas es una transformación de las varia- 
bles naturales x y y. Entonces, el modelo de la forma 

y; = Po + Bix +6 


es lineal porque lo es en los parámetros 3, y 39 - El material que se estudió en las seccio- 
nes 11.2 a 11.9 permanece sin cambio, donde y? y x; reemplazan a y, y x,. Un ejemplo 
sencillo y útil es el modelo log-log: 


log y; = Bp +4 logx; + es. 
Aunque este modelo es no lineal en x y y, si lo es en los parámetros y por ello recibe el 


tratamiento de un modelo lineal. Por otro lado, un ejemplo de modelo verdaderamente 
lineal es: 


yi= Bo + Bix + €, 


londe se debe estimar el parámetro $, así como $, y 8, . El modelo es no lineal en $. 

Las transformaciones susceptibles de mejorar el ajuste y la capacidad de predicción 
de un modelo son muy numerosas. Para un análisis completo de las transformaciones el 
lector podría consultar a Myers (1990, véase la bibliografía). Decidimos incluir aquí al- 
gunas de ellas y mostrar la apariencia de las gráficas que sirven como herramientas 
diagnósticas. Considere la tabla 11.6, donde se presentan varias funciones que describen 
relaciones entre y y x que pueden producir una regresión lineal por medio de la transfor- 
mación indicada. Además, en aras de que el análisis sea más exhaustivo, se presentan al 
lector las variables dependiente e independiente que se utilizan en la regresión lineal 
simple resultante. La figura 11.19 ilustra las funciones que se listan en la tabla 11.6, las 
cuales sirven como guía para el analista en la elección de una transformación a partir de 
la observación de la gráfica de y contra x. 





Tabla 11.6: Algunas transformaciones útiles para limealizar 


Forma funcional Transformación Forma de la regresión 

que relaciona y con x propia lineal simple 

Exponencial: y = Meó* y*=In y Hacer la regresión de y* contra x 
Potencia: y = fa? y*=log y;x*=logx Hacer la regresión de y* contra x* 
Recíproca y =fM+MB(2) x*=- Hacer la regresión de y contra x* 
Hiperbólica: y = 57 y=sti  1t=2 Hacerla regresión de B* contra 1* 
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Figura 11.19: Diagramas que ilustran las funciones listadas en la tabla 11.6. 
11.10. estudios de regresión lineal simple 


En la fabricación de productos comerciales de madera es importante estimar la relación 
que hay entre la densidad de un producto de madera y su rigidez. Se está considerando 
un tipo relativamente nuevo de aglomerado que se puede formar con mucha mayor faci- 
lidad que el producto comercial ya aceptado. Es necesario saber a qué densidad su nigl- 
dez es comparable con la del producto comercial bien conocido y documentado. Terran- 
ce E. Conners realizó un estudio titulado Investigation of Certain Mechanical Properties 
ofa Wood-Foam Composite (Tesis para el doctorado, Departamento de Bosques y Vida 
Silvestre, University of Massachusetts). Se produjeron 30 tableros de aglomerado con 
densidades que variaban aproximadamente de 8 a 26 hibras por pie cúbico y se midió su 
rigidez en libras por pulgada cuadrada. En la tabla 11.8 se presentan los datos. 

Es necesario que el analista de datos se concentre en un ajuste apropiado para los 
datos y que utilice los métodos de inferencia que se estudian en este capitulo. Tal vez lo 
más apropiado sea una prueba de hipótesis sobre la pendiente de la regresión, así como 
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la estimación de los intervalos de confianza o de predicción. 3e comenzará presentando 
un simple diagrama de dispersión de los datos brutos con una regresión lineal simple 
sobrepuesta. En la figura 11.23 se observa dicha gráfica. 

El ajuste de regresión lineal simple a los datos produce el modelo ajustado 


A 
y <= 


Tabla 11.5: Densidad y rigidez de 30 tableros de aglomerado 


Densidad, x 
9.50 
9.80 
8.30 
8.00 
7.00 


Rigidez, y 
14,814.00 
14,007.00 

7573.00 

9714.00 

5304.00 
43,243.00 
28.028.00 
49,499.00 
26,222.00 
26,751.00 
96,305.00 
72,594.00 
32,207.00 
70,453.00 
38,138.00 





5 10 15 20 


25 


Figura 11.23: Diagrama de dispersión de los datos 


de densidad de la madera. 






—25,433.739 + 3884.976x (R? =0.7975). 


10 





Rigidez, y 
17,502.00 
19,443.00 
14,191.00 

2076.00 
10,728.00 

25,319.00 
41,792.00 
25,312.00 
22,148.00 
18,036.00 

104,170.00 
49,512.00 
48,218.00 
47,661.00 
53,045.00 
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Figura 11.24: Gráfica de los residuales para los datos 


y se calcularon los residuales. En la figura 11.24 se presentan los residuales graficados 
contra las mediciones de la densidad. Dificilmente se trata de un conjunto de residuales 
ideal o satisfactorio, pues no muestran una distribución aleatoria alrededor del valor de 
cero. En realidad, los agrupamientos de valores positivos y negativos sugeririan que 
se debe investigar una tendencia curvilínea en los datos. 


11.11. 
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Para damos una idea respecto a la suposición de error normal se dibujó una gráfica 
de probabilidad normal de los residuales. Es el tipo de gráfica que estudiamos en la sec- 
ción 5.5, donde el eje horizontal representa la función de distribución normal empírica 
en una escala que produce una gráfica con línea recta cuando se grafica contra los resi- 
duales. En la figura 11.25 se presenta la gráfica de probabilidad normal de los residuales. 
Esta gráfica no refleja la apariencia de recta que a uno le gustaría ver, lo cual es otro 
sintoma de una selección errónea, quizá sobresimplificada, de un modelo de regresión. 





—2 —1 O 1 2 
Cuantil normal estándar 


Figura 11.25: Gráfica de probabilidad normal de los residuales para los datos 
de densidad de la madera. 


Los dos tipos de gráficas de residuales y, de hecho, el propio diagrama de disper- 
sión, sugieren que sería adecuado un modelo algo más complicado. Una posibilidad es 
usar un modelo con transformación de logaritmos naturales. En otras palabras, hay que 
elegir hacer la regresión de ln y contra x. Esto produce la regresión 


Iny=38 .2574+ 0.1251  (R? =0.9016). 


Para darse una idea de si el modelo transformado es más apropiado considere las figu- 
ras 11.26 y 11,27, que muestran las gráficas de los residuales de la rigidez [es decir, y- 
antilog (In y] en comparación con las de la densidad. La figura 11.26 parece más cer- 
cana a un patrón aleatorio alrededor del cero, en tanto que la figura 11.27 con seguridad 
se acerca más a una linea recta. Esto, además de un valor de AY más elevado, a 
que el modelo transformado es más apropiado. 


Correlación 


Hasta este momento se ha supuesto que la variable regresora independiente 1 es una 
variable cientifica o física en lugar de una variable aleatoria. De hecho, en este contexto 
es frecuente que x se denomine variable matemática, la cual, en el proceso de muestreo, 
se mide con un error despreciable. En muchas aplicaciones de las técnicas de regresión 
es más realista suponer que tanto XA Y son variables aleatorias y que las mediciones 
lxs, vid? = 1,2, .., Aa) son observaciones de una población que tiene la función de 
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Figura 11.26: Gráfica de residuales donde se 
utiliza una transformación logarítmica para los 


Figura 11.27: Gráfica de probabilidad normal de 
residuales en la cual se utiliza una transformación 


datos de densidad de la madera. logarítmica para los datos de densidad de la 


madera. 


densidad conjunta fíx, y) Debemos considerar el problema de medir la relación entre 
las dos variables XA y F. Por ejemplo, sí Xy Frepresentaran la longitud y la circunferencia 
de una clase particular de hueso en el cuerpo de un adulto, podriamos realizar un estudio 
antropológico para determinar si los valores grandes de XA'se asocian con valores grandes 
de F, y viceversa. 

Por otro lado, si A representa la antigitedad de un automóvil usado y Y representa su 
precio de lista al menudeo, se esperaría que los valores grandes de X' correspondan a 
valores pequeños de Y y que los valores pequeños de XA correspondan a valores grandes 
de Y. El análisis de correlación intenta medir la fuerza de tales relaciones entre dos 
variables por medio de un solo número denominado coeficiente de correlación. 

En teoría, frecuencia se supone que la distribución condicional yl) de Y, para 
valores fijos de X, es normal con media £1,,, = B_+8, y varianza Tr 5 a”, y que, de 
igual manera, XA se distribuye de forma normal con media £ y varianza O. Entonces, la 
densidad conjunta de X y Fes 


xi o + Bix, on(x; PT Ox) 


1 |_1 [fo BY, fa 
sa | > = +( Tx ) p 


para —00< Bl <oo y —00< y <00. 





fix, y) = an(y 





Escribamos la variable aleatoria Fen la forma 
Y = Eo +40X + €, 
donde ahora X' es una variable aleatoria independiente del error aleatorio €. Como la 
media del error aleatorio € es cero, se deduce que 
Hr =Po+ Bix y 05 =0 +80. 
Al sustituir para Q y (7 en la expresión anterior para f(x, v), se obtiene la distribución 
normal bivariada 


198 


l 
2770 Or yl —pó 


| l Xx—Hx do , (px fY—Hri, [y Hr va] 
alt=) E) 


para — oo <x<ooy—oo< y <o0s, donde 
fer A 


La constante p (ro) se denomina coeficiente de correlación de la población y desempe- 
ña un papel importante en muchos problemas de análisis de datos bivariados. Es impor- 
tante que el lector entienda la interpretación física de este coeficiente de correlación, así 
como la diferencia entre correlación y regresión. El término regresión aún tiene algún 
significado aquí. De hecho, la línea recta dada por 1, = PB, + 48,x se sigue llamando 
recta de regresión, igual que antes, y los estimadores de A, y 4, son idénticos a los que 
se presentaron en la sección 11.3, El valor de p es 0 cuando B, = (), que resulta cuando 
en esencia no existe regresión limeal; es decir, cuando la recta de regresión es horizontal 
y cualquier conocimiento de X es inútil para predecir Y. Como 4 >07, se debe tener 
p* El y, por lo tanto, —1 < p E 1. Los valores de p +1 sólo ocurren cuando E? = (, en 
cuyo caso se tiene una relación lineal perfecta entre las dos variables. Así, un valor de p 
igual a +1 implica una relación lineal pertecta con pendiente positiva, en tanto que un 
walor de p igual a —1 resulta de una relación lineal pertecta con pendiente negativa. En- 
tonces, se podria decir que los estimadores muestrales de p con magnitud cercana a la 
unidad implican una buena correlación o asociación lineal entre X y Y, mientras que 
valores cercanos a cero indican poca o ninguna correlación. 

Para obtener un estimador muestral de p recordemos que en la sección 11.4 apren- 
dimos que la suma de los cuadrados del error es 

SCE =3 yy — b15,,- 

Al dividir ambos lados de esta ecuación entre 5. y reemplazar ¿_ conb3,.se obtiene la 


fix y)= 


relació 
iS Sn SCE 
Y 

$e a 


El valor de hi5, Sm es igual a cero cuando b, = 0, lo que ocurrirá cuando los gra 
muestrales no tengan relación lineal. Como Ss. > 5C E, se concluye que Es 7S, 


estar entre O y 1. En consecuencia, b, 3 15, debe variar entre —1 y +1, iaa 
negativos corresponden a rectas con pendientes negativas, mientras que los valores posi- 
tivos corresponden a rectas con pendientes positivas. Un valor de—1 0 +1 sucederá cuando 
¿CE = (, pero éste es el caso en el que todos los puntos muestrales caen sobre una linea 
recta. Por lo tanto, una relación lineal perfecta se da en los datos muestrales cuando 
b,./S,, /5,, = +1. Es claro que la cantidad b,,/S,, /'5,,, la cual se designará de aquí en 
adelante EN r, 5e puede usar como un estimado del coeficiente de correlación p de la 
población. Se acostumbra hacer referencia al estimado r como coeficiente de correlación 
producto-momento de Pearson. o sólo como coeficiente de correlación muestral. 





Coeficiente de La medida p de la asociación lineal entre dos variables X y Y se estima por medio del 


correlación coeficiente de correlación muestral , donde 





at = —L— 
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Hay que tener cuidado en la interpretación de valores de r entre —1 y +1. Por ejem- 
plo, valores de r iguales a 0.3 y 0.6 significan sólo que hay dos correlaciones positivas, 
una un poco más fuerte que la otra. Sería un error concluir que r = 0.6 indica una rela- 
ción lineal dos veces mejor que la del valor r = 0.3. Por otro lado, si escribimos 
2» Sy _ SCR 


entonces r*, que por lo general se denomina coeficiente muestral de determinación, re- 
resenta la proporción de la variación de $. explicada por la regresión de Y sobre x, a saber, 
la SCR. Es decir, r? expresa la proporción de la variación total de los valores de la varia- 
ble Y que son ocasionados o explicados por una relación lineal con los valores de la variable 
aleatoria X. Asi, una correlación de 0.6 significa que 0.36, o 36%, de la variación total de 
los valores de Yen la muestra se explica mediante la relación lineal con los valores de X. 








12. REGRESIÓN LINEAL MÚLTIPLE 


12.1.Introducción 


En la mayoría de los problemas de investigación en los que se aplica el análisis de re- 
gresión se necesita más de una variable independiente para el modelo de regresión. La 
complejidad de la mayoría de mecanismos científicos es tal que, con el fin de predecir 
una respuesta importante, se requiere un modelo de regresión múltiple. Cuando un 
modelo es lineal en los coeficientes se denomina modelo de regresión lineal múltiple. 
Para el cazo de £ variables independientes, el modelo que da AAA la media de Yi, 
X +, X, €s el modelo de regresión lineal múltiple 


Hy hoi a. 1 Bu + Bx1 ++---+ MX. 
y la respuesta estimada se obtiene a partir de la ecuación de regresión muestral 
Y =b0+ bx +++ +bixé, 


donde cada coeficiente de regresión 9; se estima por medio de b;, a partir de los datos 
muestrales, usando el método de los mínimos cuadrados. Como ocurre en el caso de 
una sola variable independiente, a menudo el modelo de regresión lineal múltiple es una 
representación adecuada de una estructura más complicada dentro de ciertos rangos de 
las variables independientes. 

También se pueden aplicar técnicas similares de minimos cuadrados estimar 
los coeficientes cuando el modelo lineal incluye, por ejemplo, potencias y productos de 
las variables independientes. Un ejemplo de esto se presentaría cuando £ = 1, en cuyo 
caso el experimentador podría pensar que las medias 41y;, no caen sobre una línea recta, 
sino que se describen de manera más adecuada mediante el modelo de regresión poli- 


yr = Bu + Bix + fax? +... + B,x", 
y la respuesta estimada se obtiene de la ecuación de regresión polinomial 


$=bo+bix + bi? +++ bx", 
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En ocasiones se genera confusión al decir que un modelo polinomial es un mo- 
delo lineal. Sin embargo, los estadísticos normalmente se refieren a un modelo lineal 
como aquel en el que los parámetros ocurren en forma lineal, independientemente de có- 
mo las variables independientes entran en el modelo. Un ejemplo de modelo no lineal es 

Hrjr = aj”, 


que se estima mediante la ecuación de regresión 
Y =ab. 


En ciencias e ingemtería hay muchos fenómenos cuya naturaleza no es imherente- 
mente lineal y, cuando se conoce su verdadera estructura, no hay duda de que habria 
que intentar ajustar el modelo real. Existe mucha literatura acerca de la estimación de 
modelos no lineales por medio de mínimos cuadrados. Los modelos no leales que se 
analizan en este capitulo se relacionan con condiciones no ideales, en las cuales el ana- 
lista está seguro de que la respuesta y, por lo tanto, el error de respuesta del modelo no 
se distibuyen normalmente sino que, más bien, tienen una distribución binomial o de 
Poisson. Estas situaciones ocurren a menudo en la práctica. 

El estudiante que busque profundizar en la explicación de la regresión no limeal 
debe consultar la obra de Myers Classical and Modern Regression with Applications 
(1990; véase la bibliografía). 


12.2.estimación de coeficientes 
En esta sección se calculan los estimadores de mínimos cuadrados de los parámetros B., 
B ..... 4, mediante el ajuste del modelo de regresión lineal múltiple 
Mv lo = Po E a + ++ + xa 
a los puntos de los datos 
(ii Las Her 1=1,2,...,nyna>kj, 


donde y, es la respuesta observada a los valores x,, x,...., X,, de las £ variables inde- 
pendientes Xy» Mygaces Xi $e supone que cada observación (Xx, X s..., Xp y) satisface la 


] N Ñ 13” 
siguiente ecuación: 
Modelo de Y; = Dn + FX + Boj +++. + EX bi + €¡ 
regresión lineal o bien, . 
múltiple Yi = Yi +: = bo+ AX + aa YH bi +8» 


donde €, y e son el error aleatorio y el residual, respectivamente, asociados con la res- 
puesta y, y con el valor ajustado y... 
Como en el caso de la regresión lmeal simple, se supone que los €, son independientes y 
están distribuidos en forma idéntica con media cero y varianza común (7. 

$1 usamos el concepto de mínimos cuadrados para obtener los estimados b,, É...., 
b,, mnimizamos la expresión 


SCE=*Y e = Y (y; —by—bix 1 — baxo — ++ — bx Y. 
¡=1 ¡=1 
51, a su vez, diferenciamos la S5C.E respecto a b,, b....., b, e igualamos el resultado a cero, 
generamos el conjunto de k + 1 ecuaciones normales para la regresión lineal múltiple. 
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Ecuaciones l ” a a 
nomales de nbg + bi Y xxi + bad xa; + ..- + hi 7 = Y y, 
estimación para ¡=1 ¿=1 i=1 


la regresión bu .” + bi Nat, + b5 e + --- + a e a 


lineal múltiple 


¡=1 i=1 i=1 =1 f=1 


5 . . - 


Br Y Nk + hi Y Xx + ba Y XX; + --- +4 > xo = Y MY 
¡=1 ¡=1 ¡=1 ¡=1 ¡=1 

Estas ecuaciones se pueden resolver para b,, b,, b....., b, utilizando cualquier método 
apropiado que permita resolver sistemas de ecuaciones lineales. Casi todos los progra- 
mas estadísticos de cómputo se pueden utilizar para obtener soluciones numéricas de las 
ecuaciones anteriores. 


Regresión polinomial 
Ahora suponga que se desea ajustar la ecuación polinomial 
My ¡. =Po + Bix + Pax? +++ 8B,x" 


a los n pares de observaciones [(x, y); ¡= 1, 2,..., nj. Cada observación, y, satisface la 
ecuación 


y =Po+ Bix + BB xi + € 


o bien, ' , 
Yi =¡ +€; =bo+ bx; + box; +++: +b,x¡ +€;, 


donde r es el grado del polinomio y €, y e, son, de nuevo, el error aleatorio y el residual 
asociados con la respuesta y y con el valor ajustado $, respectivamente. Aquí el número 
de pares, n, debe ser al menos r + 1, que es el número de parámetros por estimar. 

Observe que el modelo polinomial se puede considerar un caso especial del modelo 
de regresión lineal múltiple más general, donde establecemos x, =X,x, =X",..., x= Y". 
Las ecuaciones normales adoptan la misma forma que las que aparecen en la página 445. 
Luego se resuelven para b,. b,, b...... b.. 


12.3. modelo de regresión lineal con el uso de matrices 


Al ajustar un modelo de regresión lineal múltiple, en particular cuando contiene más 
de dos variables, tener conocimientos sobre la teoría de matrices facilita considerable- 
mente el manejo de las matemáticas. Suponga que el experimentador tiene Á variables 


Modelo lineal 
general 
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independientes X,, X,,..., X, Y MODservaciones y, Ny... y, Cada una de las cuales se puede 


expresar con la ecuación 


Yi = Bo + Pix + oda + ++ + Pi + €. 


Este modelo representa en esencia a / ecuaciones que describen cómo se generan los 
valores de la respuesta durante el proceso cientifico. 51 usamos la notación de matrices, 
podemos escribir la ecuación siguiente 


Jj - xB + €, 
donde 
YI lo xau Xa 2 Xkl Bo El 
yz lo xi Xm ++: Xp A tz 
y=|. | X=|. . . ol B=l|. | e€=|. 
Ya l ox ln X2n X br Be En 
Después, el método de mínimos cuadrados para la estimación de 3, que se estudió 
en la sección 12.2, implica calcular b, para lo cual 
SCE =(y —Xb)(y —Xb) 
se minimiza. Este proceso de minimización implica resolver para b en la ecuación 
O 
y 0 eE y =0. 
Aquí no presentaremos los detalles respecto a cómo se resuelven las ecuaciones anterio- 
res. El resultado se reduce a la solución de b en 
(X'X jb = X'y. 
Observe la naturaleza de la matriz X. Además del elemento inicial, el 1-¿simo renglón 
representa los valores de x que dan lugar a la respuesta y . 51 escribimos 
” 3H ni TE y X bs 
p=l i=1 d=1l 
¿Edi DE 2, XA ¿,I1iX bi 
A =X'X <=|li-1 ¡=1 ¡=1 i=1 
XXX DA cr Yui 
t=l p=1 i=1 i=1 
y 
go = y 
¡=1 
g= Y) Xx1)y 
f=X'y = ¡ 


nos permite escribir las ecuaciones normales en la forma de matriz 


Ab =g. 
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51 la matriz Á es no singular, la solución para los coeficientes de regresión se escribe 


b=A7lg=(X'X) Xx 'y. 


De esta manera, obtenemos la ecuación de predicción o regresión resolviendo un con- 
junto de £ + 1 ecuaciones con un número igual de incógnitas. Esto implica el invertir 
la matriz XX de orden k + 1 por £k + 1. En la mayoría de libros que tratan sobre de- 
terminantes y matrices elementales se explican las técnicas para invertir matrices. Por 
supuesto, existen muchos paquetes de cómputo veloces para resolver problemas de re- 
gresión múltiple, los cuales no sólo proporcionan estimados de los coeficientes de regre- 
sión, sino que también ofrecen otra clase de información relevante para hacer inferencias 
acerca de la ecuación de regresión. 


12.4. propiedades de los estimadores de mínimos cuadrados 


Teorema 12.1: 


Las medias y varianzas de los estimadores b,, Éb....., b, se obtienen con facilidad si se 
hacen ciertas suposiciones sobre los errores aleatorios €,, €,,.... €, que son idénticas 
a las que se hacen en el caso de la regresión lineal simple. 51 suponemos que dichos 
errores son independientes, cada uno con media igual a cero y varianza (7, entonces 
podemos demostrar que b,, É>,.... b, son, respectivamente, estimadores no sesgados de 
los coeficientes de regresión [, 3 ..... 8, Además, las varianzas de las b se obtienen por 
medio de los elementos del inverso de la matriz A. Observe que los elementos fuera de la 
diagonal de A = X”X representan sumas de productos de los elementos en las columnas 
de X; mientras que los elementos en la diagonal de Á son las sumas de los cuadrados de 
los elementos en las columnas de X. La matriz inversa, A”?, aparte del multiplicador q”, 
representa la matriz de varianza-covarianza de los coeficientes de regresión estima- 
dos. Es decir, los elementos de la matriz A?10 muestran las varianzas de b,, Bb ,..., b, en 
la diagonal principal y las covarianzas fuera de la diagonal. Por ejemplo, en un problema 
de regresión lineal múltiple con £ = 2 se podría escribir 

| 0 Cor €02 

(XX) = lc cm Cr 

Cm CC 


con los elementos debajo de la diagonal principal determinados por la simetría de la 
maíriz. Entonces, se escribe 
O, =C5 0%, ¿¡=0,1,2, 
0 =Covíb,bj)= e 0%, ¡ij 
Desde luego, los estimados de las varianzas y, por lo tanto, sus errores estándar, se 


obtienen reemplazando e* con el estimado apropiado, el cual se obtuvo a partir de los 
datos expermentales. Un estimado no sesgado de (* de nuevo se define en términos de 


la suma de cuadrados del error, que se calcula utilizando la fórmula establecida en el teo- 
rema 12.1. En el teorema las suposiciones se basan en los €, deseritos con anterioridad. 


Para la ecuación de regresión lineal 
y =XB+e, 
un estimador insesgado de 7? es dado por el error o media cuadrática residual 


| SCE si - 
or Dn 20 y:) 


i=1 ¡=1 
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Podemos ver que, para el caso de la regresión lineal simple, el teorema 12.1 re- 
presenta una generalización del teorema 11.1. La prueba se deja como ejercicio para 
el lector. Al igual que en el caso de la regresión lineal más simple, el estimado de s* es 
una medida de la variación de los errores de la predicción o residuales. En las secciones 
12.10 y 12.11 se presentan otras inferencias importantes relacionadas con la ecuación 
ajustada de regresión, con base en los valores de los residuales individuales € = y — Y, 
¡=1,2....,n. 

La suma de cuadrados del error y de la regresión adoptan la misma forma y desem- 
peñan el mismo papel que en el caso de la regresión lineal simple. De hecho, la identidad 


de la suma de cuadrados 
No 9 = 0-59 + Nor 50 
i=1 í=1 ¡=1 


se sigue cumpliendo, y se conserva la notación anterior, que es, 


STCC =<=8S5CR +85CE, 


con 
STCC = Y (y; — 5) = suma de cuadrados total 
¡=1 
y 


SCR = Y (5; —5)? = suma de cuadrados de regresión 


r=1l 


Hay k grados de libertad asociados con la S4€K, y, como siempre, la 4TC0C tiene 
a — 1 grados de libertad. Por lo tanto, después de restar, la £CÉ tiene n — k — 1 grados 
de libertad. Así, nuestro estimado de 0? de nuevo es dado por la suma de cuadrados del 
error dividida entre sus grados de libertad. Las tres sumas de cuadrados aparecen en la 
salida de resultados de la mayoría de los programas de cómputo de regresión múltiple. 
Observe que la condición n > ken la sección 12.2 garantiza que los grados de libertad 
de la $CE no sean negativos. 


Análisis de varianza en la regresión múltiple 


La partición de la suma total de cuadrados en sus componentes, la suma de cuadrados de 
regresión y del error desempeña un papel importante. Puede efectuarse un análisis 
de varianza que arroje luz sobre la calidad de la ecuación de regresión. Una hipótesis 
que sirve para determinar si el modelo explica una cantidad significativa de variación, 
es la siguiente: 


Ho Bi=B=B=>=f=0. 


El análisis de varianza implica una prueba F, mediante una tabla, como la siguiente: 


Fuente Suma de cuadrados Grados de libertad 





Regresión SER k 
Error S$CE n— (k + 1) 
Total STEC n— 1 


Se trata de una prueba de cola superior. El rechazo de A, significa que la ecuación de 
regresión difiere de una constante. Es decir, al menos una variable regresora es impor- 
tante. En las secciones que siguen se estudia más el uso del análisis de varianza. 


205 


Otra utilidad del cuadrado medio del error (o cuadrado medio residual) estiba en su 
uso para la prueba de hipótesis y la estimación de intervalos de confianza que se estudian 
en la sección 12.5. Además, el cuadrado medio del error desempeña un papel importante en 
las situaciones en las que el científico busca el mejor modelo entre un conjunto de ellos que 
están en competencia. Muchos criterios de construcción de modelos incluyen el estadistico 
y”. En la sección 12.11 se presentan criterios para comparar modelos en competencia. 





12.5.inferencias en la regresión lineal múltiple 


El conocimiento de la distribución de los estimadores del coeficiente individual facilita 
al experimentador construir intervalos de confianza para los coeficientes y hacer pruebas 
de hipótesis acerca de ellos. Recuerde que en la sección 12.4 estudiamos que b, (y =0, 
1, 2,..., k) se distribuyen de forma normal con media $, y varianza c, ¡7. De esta manera, 
se puede utilizar el estadístico b; — Bro 


SAO; 
con — k — 1 grados de libertad para probar hipótesis y construir intervalos de confianza 
sobre 3. Por ejemplo, si queremos probar 
Ho: Bj =Bjo. 
Hi: PB; + Bjo. 
se calcula el estadístico f anterior y no se rechaza H, si —1,,, < 1 < 1_,. donde 1, tiene 
n — k — 1 grados de libertad. 


Ejemplo 12.5: | Para el modelo del ejemplo 12.4 pruebe la hipótesis de que $, = —2.5 en comparación 
con la alternativa de que $, > —2.5 a un nivel de significancia de 0.05, 


Solución: 
Hoy: B> = —2,5, 
Hi: PB» >-—2.5. 
Cálculos: 
y Po Bm _ 18616425 _, 09 
sy 2 Aa 
P=P(T >.2.39)) = 
Decisión: Rechazar H, y concluir que $, > —2.5. J 


Pruebas f individuales para la selección de variables 


La prueba t que se utiliza con más frecuencia en la regresión múltiple es aquella que 
prueba la importancia de los coeficientes individuales, es decir, H; B, = O en compara- 
ción con la hipótesis alternativa HH: B, + 0. Con frecuencia estas pruebas contribuyen 
a lo que se denomina selección de variables. con la cual el analista intenta llegar al 
modelo más útil, es decir, a la elección de cuál regresor utilizar. Aquí debemos destacar 
que, si se encuentra que un coeficiente es insignificante, es decir, si no se rechaza la 
hipótesis H,;: 8, = 0, la conclusión que se obtiene es que la variable es insignificante 
(explica una cantidad insignificante de la variación de y) en la presencia de los demás 
regresores del modelo. Más adelante se profundizará en este punto. 
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Inferencias sobre la respuesta media y la predicción 
Una de las inferencias más útiles que se pueden hacer con respecto a la calidad de la 
respuesta predicha y,. correspondiente a los valores x,. X,...... X,. 85 el mtervalo de 
confianza sobre la respuesta media py) X yo Lyyo y: Estamos interesados en construir un 
intervalo de confianza sobre la respuesta media para el conjunto de condiciones deter- 
minadas por 
X; = [l,010,X2p,....X £0]. 


$e aumentan en 1 las condiciones sobre las x para facilitar la notación de matrices. La 
normalidad en los €, producen normalidad en los 6. y la media y la varianza siguen 
siendo las mismas, como se indica en la sección 12.4. Así es la covarianza entre b, y b, 
para ¡ E j. De esta manera, 


k 
y = bi + Y bixjo 


P=1 


también se distribuye normalmente y es, de hecho, un estimador no sesgado para la 
respuesta media sobre la que se intenta ligar un intervalo de confianza. La varianza de 
$. escrita con notación de matriz simplemente como función de 07, (X*X)7!, y el vector 
de condiciones, x; es 


Ti, = Xx (A Xy Xp. 


51 esta expresión se extendiera para un caso dado, por ejemplo £ = 2, ya vimos que ex- 
plica de manera apropiada la varianza de b y la covartanza de b, y b, para i H |. Después 
de sustituir * con s*, según se plantea en el teorema 12.1, el intervalo de confianza del 
100(1 — 011% se puede construir sobre y A pp gypsy A partir del estadístico 


_ Yo ul Hy loo. 136... 10 
Sy (AX j 





que tiene una distribución £ con n — k— 1 grados de libertad. 


Intervalo de Un intervalo de confianza de 100(1 — 0% para la respuesta media My toi vo 550 85 
confianza para A Pz 
Hy Lc 0. 0 + TE Yo sl Eaj28 yx Xy "xo < Hy Loro. 136 -—ILG = o + tajas yA A 'X) xo, 


donde £_., es un valor de la distribución 1 con n — k— 1 grados de libertad. 


Es frecuente que a la cantidad s y LA Y 1xp se le denomine error estándar 
de la predicción y aparece en la salida de resultados de muchos paquetes de cómputo 
para regresión. 
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12.6. elección de un modelo de ajuste la prueba de hipótesis 


En muchas situaciones de regresión los coeficientes individuales revisten importancia para 
el experimentador. Por ejemplo, en una aplicación de economía, (9, B..... podrian tener un 
siembicado en particular, por lo que el economista tendría un interés especial en los inter- 
valos de confianza y en las pruebas de hipótesis sobre dichos parámetros. Sin embargo, 
considere una situación de química industrial en la que el modelo propuesto supone que 
el producto de la reacción depende linealmente de la temperatura y concentración de la 
reacción de cierto catalizador. Es probable que se sepa que éste no es el verdadero modelo, 
sino una aproximación adecuada; de manera que el interés no estribaria en los parámetros 
individuales, sino en la capacidad de la función en su conjunto para predecir la respuesta 
verdadera en el rango de las variables consideradas. Por lo tanto, en esta situación, se 
pondría más énfasis en Tr, los intervalos de de la respuesta media, y así suce- 
aivamente, y disminuiría el interés en las inferencias sobre los parámetros individuales. 

El experimentador que utiliza análisis de regresión también está interesado en eli- 
minar variables cuando la situación impone que, además de llegar a una ecuación de 
pronóstico funcional, debe encontrar la “mejor regresión” que implique sólo variables 
que sean predictores útiles. Se dispone de varios programas de cómputo que llegan en se- 
cuencia a la denominada mejor ecuación de regresión, dependiendo de ciertos criterios. 
En la sección 12.9 profundizaremos en el estudio de esto. 

Un enriterio que suele utilizarse para dustrar lo adecuado de un modelo ajustado de 
regresión es el coeficiente de determinación múltiple o R7. 


Coeficiente de 


determinación . Só —y) o 
múltiple o R* - JN SCR Sil 11 SCE 
STCC =— 5 STCC 
> Cr — yy! 
¡=1 


Advierta que esta descripción se parece a la que se hizo de R* en el capítulo 11. 
En este punto la explicación podría ser más clara, toda vez que ahora nos centramos en 
S5CR como la variabilidad explicada. La cantidad R” tan sólo indica qué proporción de 
la variación total de la respuesta F es explicada por el modelo ajustado. Con frecuencia 
los experimentadores reportan K* x 100% e interpretan el resultado como el porcentaje 
de variación explicado el modelo propuesto. La raíz cuadrada de R* se denomina 
coeficiente de correlación múltiple entre Y y el conjunto x.. X....., x,. En el ejemplo 
12.4 el valor de R* que indica la proporción de variación explicada por las tres variables 
independientes X,, Xx, Y X, €5 


2 SCR 399.45 
=STCC” 438.13 





= 0.9117, 


lo cual significa que 91.17% de la variación del porcentaje de supervivencia queda expli- 
cada por el modelo de regresión lineal. 

La suma de cuadrados de regresión se puede emplear para obtener algún indicio 
acerca de si el modelo representa o no una explicación adecuada de la verdadera situa- 
ción. Podemos probar la hipótesis A, de que la regresión no es significativa con sólo 
plantear la razón 


Ñ SCR /k _SCR /k 
OSCE fin=k-=1) 32 





f 
y rechazar A, al nivel de significancia Y cuando f > f (k, n— k— 1). Para los datos del 
ejemplo 12.4 se obtiene 


- 399.45/3 


SC 30.98. 
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De la salida de resultados por computadora que aparece en la figura 12.1, el valor P es 
menor que 0.0001. Esto no debe malinterpretarse. Aunque indica que la regresión expli- 
cada por el modelo es significativa, no descarta la posibilidad de que 
1. El modelo de regresión lineal en este conjunto de x no sea el único que se puede 
usar para explicar los datos; de hecho, quizás haya otros modelos con transforma- 
ciones sobre las x que generen un valor mayor para el estadístico F. 
2. El modelo podría ser más eficaz 51 se ncluyeran otras vanables, además de XK, E, y 
x,. O quizá sí se eliminaran una o más de las variables del modelo, por ejemplo x,, 
que tiene un valor P = 0.5916. 

El lector debería recordar el análisis de la sección 11.5 sobre las desventajas de 
utilizar R* como criterio para comparar modelos en competencia. Es evidente que dichas 
desventajas son relevantes en la regresión lineal múltiple. De hecho, los riesgos de su 
empleo en la regresión múltiple son aún mayores debido a que es muy grande la tenta- 
ción de hacer un sobreajuste. Hay que tener siempre presente que R” = 1.0 siempre puede 


obtenerse a expensas de los grados de libertad del error cuando se emplea un exceso de 
términos en el modelo. Sin embargo, R* = 1, que describe un modelo con ajuste casi 
perfecto, no siempre genera un modelo que hace buenas predicciones. 





El coeficiente de determinación ajustado (R”..) 


En el capítulo 11 se presentan varias figuras que muestran listados de resultados por 
computadora, tanto del SAS de MINITAB, en las que aparece un estadistico lla- 
mado R* ajustado, o un coeficiente de determinación ajustado. R” ajustado es una va- 
ración de K* que proporciona un ajuste para los grados de libertad. El coeficiente de 
determinación, según se definió en la página 407, no puede disminuir a medida que se 
agregan términos al modelo. En otras palabras, R* no disminuye a medida que se reducen 
los grados de libertad del error n — £— 1, ya que este último resultado se produce por un 
incremento de A, el número de términos en el modelo. R* ajustado se calcula dividiendo 
la SCE y la $T CC entre sus grados de libertad respectivos de la siguiente manera. 


KR” ajustado , SCE /(n —k-—1) 
R* — ] — o 
2 S$TCC [f(n —1) 


Para ilustrar el uso de A, se revisará el ejemplo 12.4. 
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¿Cómo la eliminación de x, afecta a R* y R/..? 
La prueba £ (o la prueba F correspondiente) para x, sugiere que un modelo más senci- 
llo que sólo implique x, y x, bien podría ser una mejoria. En otras palabras, el modelo 
completo con todos los regresores podría estar sobreajustado. Por supuesto que es in- 
teresante investigar R* y RZ,, tanto para el modelo completo (x,. x, y x,) como para el 
modelo reducido (x,, 1,). A partir de la figura 12.1 ya sabemos que Pa = 0.9117. La 
SCE para el modelo reducido es 40.01, por lo que RE, =1-— 2 = 0.9087. De esta 
forma, con x, dentro del modelo se explica más variabilidad. No obstante, como ya se 
dijo, esto ocurriría aun si el modelo estuviera sobreajustado. Desde luego que KR, está 
diseñada para proporcionar un estadístico que castigue un modelo sobreajustado, de 
manera que podriamos esperar que se favorezca al modelo restringido. Entonces, para 
el modelo completo 
p? 38.6764,/9 4.2974 


a = =——_ E == 1] = (008823, 
Had 438.1308/12 36.51009 





mientras que para el modelo reducido (eliminación de x,) 


» 40.01 10 4.001 
Rosas = A 
e 438.1308/12 36.5100 


Asi, Fis realmente favorece el modelo reducido y confirma la evidencia proporcionada 
por las pruebas í y F, sugiriendo que el modelo reducido es preferible sobre el que 
contiene los tres regresores. El lector quizás espere que otros estadísticos sugleran el 
rechazo del modelo sobreajustado. Véase el ejercicio 12.40 de la página 471. 


12.7. Caso especial de ortogonalidad 


Ántes de nuestro desarrollo original del problema general de regresión lineal se planteó 
la suposición de que las variables independientes se miden sin error y que con frecuen- 
cia están bajo el control del expermmentador. A menudo ocurren como resultado de un 
experimento diseñado con gran detalle. De hecho, se puede incrementar la eficacia de 
la ecuación de predicción resultante utilizando un plan de experimentación adecuado. 

Suponga que nuevamente consideramos la matriz X, tal como se definió en la sec- 
ción 12.3. Podemos rescribirla como 


X =[l,x1,Xz,...,X4l 





londe 1 representa una columna de unos y x, es un vector columna que representa los 
niveles de x. 51 
XxX =0, puap+*g, 


se dice que las variables x, y X, son ortogonales entre sí. Hay ciertas ventajas evidentes 
en tener una situación completamente ortogonal, en la cual x' A, > O. 
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para toda posible p y q, p € q y, además, 


Y a = ( j = A A 


s=1l 


La XX resultante es una matriz diagonal, y las ecuaciones normales de la sección 12.3 


se reducen a 
a nr TT Tm dl 
nby = ) Vi» bi ) x= > MriViso oo + » Xp = > X hi Vie 
i=1 i=1l d=1 d=1 i=1 


Una ventaja importante es que es fácil hacer la partición de la ¿CR en componentes 
de un solo grado de libertad, cada uno de los cuales corresponde a la cantidad de va- 
riación de F explicada por una variable controlada establecida. En la situación ortogonal 
se escribe 


SCR = Y (5-5 =D) (lo + bi + +++ + bx — bn)? 


SS ET + hs Nal, +... + hi > 
—. i=1 ¡=1 


=R(B)+R(B)+-->-+R(Br). 


La cantidad R(9) es la cantidad de la suma de cuadrados de regresión asociada con 
modelo que implica una sola variable independiente .x.. 

Para probar simultáneamente la significancia de un conjunto de mm vartables en una 
situación ortogonal, la suma de cuadrados de regresión se convierte en 


R(Br, Br... Bn | Broto Pin +29 +++» Pi) = RIBA RBA) + ++ R(Bn), 
y, por lo tanto, 
R(8; | Ba. Ba...., Be) p. R(81) 


se simplifica cuando se evalúa una sola variable independiente. Por consiguiente, la 
contribución de una variable determinada o un conjunto de variables se encuentra, en 
esencia, ¡ignorando las demás variables del modelo. Las evaluaciones independientes del 
beneficio de las variables individuales se llevan a cabo usando las técnicas de análisis de 
varianza, tal como se presentan en la tabla 12.4. La variación total en la respuesta está 
dividida en componentes de un solo grado de libertad más el término del error con n — k 
— 1 grados de libertad. Cada valor f calculado se utiliza para probar una de las hipótesis 


H y: Bi = () o 
Hi: Bj; ll ¡=1,2,...,K 


comparándolas con el punto crítico £ (1, n — k — 1) o simplemente interpretando el 
valor P calculado a partir de la distribución f. 
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Tabla 12.4: Análisis de varianza para variables ortogonales 





Fuente suma de Grados de Cuadrados F 

de variación cuadrados libertad medios — calculada 

A R(B) = hb y XT l R(B) = > 
¡=1 

Pa R(B)= 5x3 R(B>) ds 
¡=1 

Pr R(B)=H Y xi, R(B2) ELA 

Error S$CE n—=k-=—l s= == 

Total — SST=S,, n—1 


12.8. métodos secuenciales para la Selección del modelo 


En ocasiones las pruebas de significancia estudiadas en la sección 12.6 son muy ade- 
cuadas para determinar cuáles variables se deben usar en el modelo final de regresión. 
Dichas pruebas sin duda son eficaces si el experimento se puede planear y las variables 
son ortogonales entre si. Incluso si las variables no son ortogonales, las pruebas 1 indi- 
viduales se pueden usar en muchos problemas en donde se investigan pocas variables. 
Sin embargo, existen muchos problemas en los que es necesario utilizar técnicas más 
elaboradas para seleccionar las variables, en particular s1 el experimento exhibe una 
desviación sustancial de la ortogonalidad. Los coeficientes de correlación de la muestra 
Fryx, proporcionan medidas útiles de multicolinealidad (dependencia lineal) entre las 
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variables independientes. Como sólo estamos interesados en la dependencia lineal en- 
tre variables independientes, no nos confundiremos si eliminamos las x de la notación y 
sólo escribimos Frjx, =Fij, donde 


dj 
ji = —==- 
VEL Si 


Observe que, en sentido estricto, las r, no proporcionan estimados verdaderos de 
los coeficientes de correlación de la población, ya que las x en realidad no son variables 
aleatorias en el contexto que se estudia aquí. Así, el término correlación, aunque están- 
dar, quizá sea inadecuado. 

Cuando uno o más de esos coeficientes de correlación muestral se desvía de manera 
sustancial de cero, suele ser muy dificil encontrar el subconjunto de variables más eficaz 
para incluirlo en la ecuación de predicción. De hecho, en ciertos problemas la multicol1- 
nealidad es tan extrema que no es posible encontrar un predictor adecuado, a menos que 
se investiguen todos los subconjuntos posibles de variables. En la bibliografía se citan 
los análisis informativos de Hocking (1976) para la selección de modelos de regresión. 
En la obra de Myers (1990), también citado, se estudian procedimientos para detectar la 
multicolinealidad. 

El usuario de la regresión lmeal múltiple busca lograr uno de tres objetivos: 

l. Obtener estimados de coeficientes individuales en un modelo completo. 

2. Estudiar variables para determinar cuáles tienen un efecto significativo sobre la 

respuesta. 

3. Calcular la ecuación de predicción más eficaz. 
En 1) se sabe de antemano que todas las variables deben incluirse en el modelo. En 2) la 
predicción es secundaria; mientras que en 3) los coeficientes de regresión individuales 
no son tan importantes como la calidad de la respuesta estimada $. Para cada una de las 
situaciones anteriores la multicolinealidad en el experimento puede tener un efecto pro- 
fundo sobre el éxito de la regresión. 

En esta sección se estudian algunos procedimientos secuenciales estándar para se- 
leccionar variables, los cuales se basan en la idea de que una sola variable o un conjunto 
de ellas no debería aparecer en la ecuación de estimación, a menos que origine un in- 
cremento significativo en la suma de cuadrados de regresión o, en forma equivalente, un 
incremento significativo de R”, el coeficiente de determinación múltiple. 


12.9. estudio de residuos y violación de suposiciones 


Anteriormente en este capitulo se sugirió que los residuales, o errores en el ajuste de 
regresión, con frecuencia proporcionan información que puede ser muy valiosa para el 
analista de datos. Los e,=y= f, ¡= 1, 2,...,n, que son el equivalente numérico de los 
€ los errores del modelo, a menudo revelan la posible violación de las suposiciones o la 
presencia de datos de puntos “sospechosos”. Suponga que el vector x, denota los valores 
de las variables regresoras que corresponden al ¿-¿simo punto de los datos, complemen- 
tado por un 1 en la posición inicial. Es decir, 


Xx; = [l,x1;,x3;,..., 16 l 
Considere la cantidad 
hi = x¡(X” xy” Xi, F=1,2, ... 
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El lector debería notar que en la sección 12.5 se utilizó Á,, para calcular los intervalos de 
confianza de la respuesta media. Además de e*-, Á,, representa la varianza del valor ajus- 
tado $. Los valores Á, son los elementos de la diagonal de la matriz “SOMBRERO” 


H=X(X'X) Xx” 


que desempeña un papel importante en cualquier estudio de residuales y en otros aspec- 
tos modernos del análisis de regresión (véase Myers, 1990, citado en la bibliografía). El 
término matriz SOMBRERO se deriva del hecho de que H genera las “y sombrero”, o 
los valores ajustados cuando se multiplica por el vector y de respuestas observadas. Es 
decir, $ = Xb, por lo tanto, 


$ =X('X) Xy =Hy, 


donde y es el vector cuyo ¡-ésimo elemento es f.. 

51 se hacen las suposiciones acostumbradas de que los € son independientes y están 
distribuidos normalmente, con media cero y varianza 07, las propiedades estadísticas de 
los residuales se establecen facilidad. Entonces, 


Eítei)=Elv;—;¡)=0 y a = (1—hiJe?, 


para í = 1, 2,...,n. (Para mayores detalles véase Myers, 1990). Es posible demostrar que 
los valores de la diagonal de la matriz SOMBRERO están acotados de acuerdo con la 
desigualdad 


<= hi =1l 


=|= 


Además, Y hi =Xk+1, el número de parámetros de la regresión. Como resultado, 


cualquier punto de los datos cuyo elemento diagonal SOMBRERO sea grande, es decir, 
esté muy por encima del valor promedio de (k + 1)'n, está en una posición dentro del 
conjunto de datos donde la varianza de $ es relativamente grande y la varianza de un 
residuo es relatrvamente pequeña. Como resultado, el analista de datos puede tener una 
idea de qué tan grande puede ser un residuo antes de que su desviación de cero se pueda 
atribuir a algo distinto del azar. Muchos de los paquetes comerciales para computadora 
que permiten calcular la regresión producen el conjunto de residuales estudentizados. 














Residuo e; 
estudentizado ¡ e de A 
$yl— A 


Aquí, cada residuo se dividió entre una estimación de su desviación estándar 
creando un estadístico fipo + diseñado para dar al analista una cantidad sin escala que 
proporcione información sobre el tamaño del residual. Además, a menudo los paquetes 
de cómputo comunes proporcionan valores de otro conjunto de residuales tipo estuden- 
tizados denominados valores R de Student. 


Residual K de an e; E , 
Student A 
donde 5, es un estimador de la desviación estándar del error calculado con el -ésimo 
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Hay tres tipos de transgresiones de las suposiciones fáciles de detectar mediante 
el uso de los residuales o gráficas de residuales. Aunque las gráficas de los residua- 
les brutos, los e, ayudan a esto, con frecuencia es más informativo graficar los residuales 
estudentizados. Las tres transgresiones son las siguientes: 

l. Presencia de valores extremos 
2. Varianza heterogénea del error 
3. Especificación inadecuada del modelo 

En el caso 1 elegimos definir un valor extremo como un punto de los datos que se 
desvía de la suposición común de que E(€ ) =Ú para un valor especifico de 1. 51 hay una 
razón para creer que un punto de un dato especifico es un valor extremo que ejerce 
una gran influencia sobre el modelo ajustado, r, o £,, esto podría estar informando algo. 
Es de esperarse que los valores K de Student sean más sensibles a los valores extremos 
que los valores r.. 

En realidad, en el caso de que Ele) = 0, 1 es un valor de una variable aleatoria que 
sigue una distribución 1 n—1—(k+ 1) =n-— k-— 2 grados de libertad. Por cons1- 
guiente, es posible utilizar una prueba f de dos colas para proporcionar información 
el fin de detectar si el punto ¿(-ésimo es o no un valor extremo. 

Aunque el estadístico A de Student £ produce una prueba / exacta para detectar un 
valor extremo en una ubicación especifica, la distribución f no se aplicaría para probar 
simultáneamente varios valores extremos en todas las ubicaciones. Como resultado, los 
residuales estudentizados o valores K de Student se deberían usar estrictamente como 
herramientas de diagnóstico sín un mecanismo de prueba de hipótesis formal. La im- 
plicación es que dichos estadisticos resaltan puntos de los datos en los que el error del 
ajuste es mayor de lo esperado por el azar. Los valores R de Student de gran magnitud 
sugieren la necesidad de “verificar” los datos con todos los recursos disponibles. La 
práctica de eliminar observaciones de conjuntos de datos de la regresión no debería 
llevarse a cabo de forma indiscriminada. (Para más información sobre el uso de los diag- 
nósticos sobre valores extremos véase Myers, 1990, en la bibliografia). 


Ilustración de la detección de valores extremos 





Estudio de caso 12.1: | Método para capturar saltamontes. En un experimento biológico, que fue efectuado 
en el Departamento de Entomología de Virginia Tech, se hicieron a ensayos experimen- 
tales con dos métodos diferentes para capturar saltamontes. Los métodos consistieron en 
la captura por caída de la red y la captura por barrido de la red. El número promedio de 
saltamontes atrapados con cada método se registró en un conjunto de cuadrantes del 
campo en una fecha determinada. También se registró una variable regresora adicional, 
la altura promedio de las plantas en los cuadrantes. Los datos experimentales aparecen 
en la tabla 12.10. 

El objetivo consiste en estimar cuántos saltamontes se capturan empleando sólo el 
método del barrido de la red, que es menos costoso. Hay cierta preocupación por la vali- 
dez del cuarto punto de los datos. La captura observada utilizando el método de caida de 
la red que se reportó parece inusualmente alta, dadas las demás condiciones, de hecho se 
pensó que la cifra podía ser errónea. Ajuste un modelo del tipo 

Yi = Bo + Bix + Pax 
para los 17 puntos de los datos y estudie los residuales para determinar si el punto 4 es 
un valor extremo. 
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Tabla 12.10: Conjunto de datos para el estudio de caso 12.1 
Altura de 
las plantas, 
x2 (cm) 


Captura — Captura por 
por caída — barrido de 


Observación delared.y — lared,x; 





l 15.0000 4.15476 52.705 
2 8.8750 2.02321 42.069 
3 2.0000 0.15909 34.766 
2 20.0000 2.32812 27.622 
h 2.3750 0.2552] 45.879 
6 2.7500 0.57292 97472 
7 3.3333 0.70139 102.062 
5 1.0000 0.13542 97.790 
9 1.3333 0.12121 25.205 
10 1.7500 0.10037 58.137 
11 4.1250 0.56250 42.356 
12 12.5750 2,45312 31,274 
13 5.3750 0.45312 31.750 
14 28.0000 6.6875) 35.401 
15 4.7500 0.36979 64.516 
16 1.7500 (0.14583 25,241 
17 0.1333 0.01562 30.354 


Solución: Un paquete de cómputo generó el modelo de regresión ajustado 
$ = 3.6870 + 4.1050x, — 0.0367x3 


junto con los estadísticos R* = 0.9244 y + = 5.580. También se obtuvieron los residuales 
y otra información de diagnóstico que fueron registrados en la tabla 12.11. 

Como se esperaba, el residual en la cuarta ubicación parece inusualmente grande, a 
saber, 7.769. La cuestión fundamental aquí es si este residual es más grande de lo que se 
esperaría debido al azar. El error estándar del residual para el punto 4 es 2.209. El valor 
KR de Student £, que se obtuvo es 9.9315. Al considerarlo como el valor de una variable 
aleatoria que tiene una distribución í con 13 grados de hibertad, se concluiria sin duda 
que el residuo de la cuarta observación se estima algo mayor que Ú, y que la medición 
del presunto error es apoyada por el estudio de los residuales. Observe que ningún otro 
valor de los residuales proporciona un valor R de Student que sea motivo de alarma. Ji 


Verificación de la normalidad 


El lector debe recordar, de acuerdo con lo que se estudió en el capitulo 11, la importan- 
cia de verificar la normalidad utilizando una gráfica de probabilidad normal. La misma 
recomendación es válida para el caso de la regresión lineal múltiple. Las gráficas de 
probabilidad normal se pueden generar utilizando software estándar para regresión. 5in 
embargo, como ya se indicó, éstas pueden ser más eficaces sl se usan residuales estuden- 
tizados o valores R de Student en vez de residuales comunes. 
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Figura 12.5: Valores R de Student graficados en comparación con los valores predichos 
para los datos de los saltamontes del estudio de caso 12.1. 


12.10. validación Cruzada C y otros criterios para la Selección del modelo 


Para muchos problemas de regresión el experimentador debe elegir entre vanos modelos 
alternativos o formas de modelo que se desarrollan a partir del mismo conjunto de datos. 
Con mucha frecuencia se requiere el modelo que predice o estima mejor la respuesta 
media. El experimentador debe tomar en cuenta los tamaños relativos de los valores de s 
para los posibles modelos y, sin duda, la naturaleza general de los intervalos de confianza 
sobre la respuesta media. También se debe considerar lo bien que el modelo predice los 
valores de la respuesta que no se hayan utilizado para construir los posibles modelos. 
Los modelos deben estar sujetos a validación cruzada. Entonces, lo que se requiere son 
los errores de la validación cruzada en lugar de los errores del ajuste. Estos errores en la 


predicción son los residuales PRESS. 
d =yi: —Yi-i 1=1,2,...,n, 


donde $ es la predicción del ¡-ésimo punto de los datos por medio de un modelo que 


- id 





no utiliza el ¡-ésimo punto en el cálculo de los coeficientes. Estos residuales PRESS se 
calculan mediante la fórmula 
Ó; = 1 == s 8d= 1 A 


(La derivación se encuentra en Myers, 1990). 


Uso del estadistico PRESS 


La motivación para utilizar PRESS y la utilidad de los residuales PRESS es muy fácil 
de entender. El propósito de extraer o separar puntos de datos, uno a la vez, consiste en 
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permitir el empleo de metodologías separadas para ajustar y evaluar un modelo específico. 

Para evaluar un modelo la *—f” indica que el residual PRES5 proporciona un error de 

predicción donde la observación que se predice es independiente del ajuste del modelo. 
Los enterios que utilizan los residuales PRESS son dados por 


a, y PRES5= e. 


i=1 i=1 


(El término PRESS es un acrónimo que se forma con las iniciales de los términos de la 
frase en inglés prediction sum of squares, que se traduce como suma de cuadrados de 
predicción). Se sugiere que se utilicen ambos criterios. Es posible que PRESS sea domi- 
nado por uno o algunos residuales PRESS grandes. Es evidente que el criterio sobre 3|6,| 
i=1 

es menos sensible a un número pequeño de valores grandes. 

Además del estadístico PRESS en sí, el analista puede simplemente calcular un 
estadístico similar a R* que refleje el desempeño de la predicción. Con frecuencia a este 
estadístico se le denomina Ri y se calcula como sigue: 





K* de predicción Dado un modelo ajustado con valor específico para PRESS, RA, es dado por 


: PRESS 
R red = 1 - A, 
Y (y FP 
=l 


Observe que R/,, es tan sólo el estadístico común R* donde la $€.£ fue reemplazada por 
el estadístico PRESS. 

En el siguiente estudio de caso se proporciona un ejemplo en el que se ajustan mu- 
chos posibles modelos a un conjunto de datos y se elige el mejor de ellos. No se emplean 
los procedimientos secuenciales descritos en la sección 12.9. En vez de eso se ilustra el 
papel que desempeñan los residuales PRESS y otros valores estadísticos cuando se trata 
de seleccionar la mejor ecuación de regresión. 





Estudio de caso 12.2: | Patada de fútbol. La fuerza de las piernas es un requisito necesario para que un pateador 
tenga éxito en el fútbol americano. Una medida de la calidad de una buena patada es el 
“Hempo de vuelo” del balón, es decir, el tempo que el balón se mantiene en el aire antes 
de ser atrapado por el regresador de patadas. Para determinar cuáles factores de la fuerza 
de las pienas influyen en el tiempo de vuelo y desarrollar un modelo empírico para prede- 
cir esta respuesta, el Departamento de Salud, Educación Física y Recreación de Virginia 
Tech llevó a cabo un estudio sobre La relación entre variables seleccionadas de desem- 
peño físico y la capacidad de despejes en el fútbol. Se eligieron 13 pateadores para el 
experimento y cada pateó 10 veces el balón. En la tabla 12.12 aparece el registro del 
tiempo de vuelo promedio, junto con las medidas de fuerza usadas en el análisis. 

Cada variable regresora se define como sigue: 
1. FPD, fuerza de la pierna derecha (libras) 
2. FPL fuerza de la pierna izquierda (libras) 
3. FTD, flexibilidad muscular del tendón derecho (grados) 
4d. FTIL, flexibilidad muscular del tendón izquierdo (grados) 





El 
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5. Potencia, fuerza general de las piernas (pie-libras) 
Determine el modelo más adecuado para predecir el tiempo de vuelo. 
Tabla 12.12: Datos para el estudio de caso 12.2. 


Tiempo de FPD, FPI  FTD, FTL Potencia, 


Pateador vuelo, y (seg) X1 Xy X3 Xá Xs 
l 4.75 170 170 106 106 240.57 
2 4.07 140 130 92 93 195,49 
3 4.04 180 170 93 T8 152.99 
El 4.18 160 160 103 93 197.09 
5 4.35 170 150 104 03 266.56 
6 4.16 150 150 101 27 260.56 
7 4,43 170 1830 108 106 219.25 
la] 3.20 110 110 26 g2 132.08 
y 3.02 120 110 20 26 130,24 
10 3.04 130 120 25 20 205.88 
11 3.08 120 140 89 23 153,92 
12 3.60 140 130 92 94 154.64 
13 3.85 160 150 gs gs 240.57 


Solución: Al buscar el mejor modelo posible para predecir el tiempo de vuelo se obtuvo la infor- 
mación de la tabla 12.13 utilizando un paquete de cómputo para regresión. Los modelos 
están clasificados en orden ascendente con respecto a los valores del estadístico PRESS. 
Esta presentación brinda información suficiente acerca de todos los modelos posibles 
con el fin de permitir que el usuario elimine algunos de ellos. Al parecer, el mejor mode- 
lo para predecir el tiempo de vuelo para los pateadores es el que contiene a x, y x, (FPI 
y potencia), denotadas por xxs Asimismo, observe que todos los modelos con valores 


bajos de PRESS, de s”, de 5 | y con valores altos de R”, contienen esas dos variables. 
Para obtener información de los residuales de la regresión ajustada 


Yi = bo + baixa; + b5x55, 


se generaron los residuales y los residuales PRESS. El modelo de predicción real (véase 
el ejercicio 12,47 de la página 494) es dado por 


Y = 110765 + 0.01370% + 0.00429x+ . 


En la tabla 12.14 se listan los residuales, los valores de la diagonal testada y los valores 
PRESS. 

Observe el ajuste relatrvamente bueno de los modelos de regresión con dos variables 
para los datos. Los residuales PRESS reflejan la capacidad de la ecuación de regre- 
sión para predecir el tiempo de vuelo sí se hicieran predicciones independientes. Por 
ejemplo, para el pateador número 4 el tempo de vuelo de 4.180 tendría un error de pre- 
dicción de 0.039 s1 se construyera el modelo usando a los 12 pateadores restantes. Para 


este modelo el error promedio de la predicción, o error de validación cruzada, es 





ñ y 16] = 0.1489 segundos, 


= g=l 
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Tabla 12.13: Comparación de diferentes modelos de regresión 


Modelo g? 10; | PRESS R? 

X2X5 0.036907 1.93583 054683 0.371300 
Xx1X2X5 0041001 2.064859 055998 0371321 
X2X4X5 0037708 2.18797 059915 0.851658 
X2X3X5 0039636 2.00553 066182 0.375606 
Xx X2X4X5 0047265 242194 0.678540 0852093 
Xx X2X3X5 0044578 2.26283 070958 0.375642 
X2X3X4X5 0042421 2.55789 036236 0851658 
Xx X3X5 0053664 2.05276 0.37325 0.331550 
X1X4X5 0.056279 2.75390 089551 0323375 
x1X5 0059621 2.9944 097483 0792094 
x2X3 0056153 2.95310 095815 0804157 
x1X3 0059400 3.01436 099697 0792364 
X X2X3X4X5 0048302 2.87302 1.00920 0.352096 
Xx 0066894 3.22319 1.04564 0743404 
X3X5 0065678 3.000474 1.05708 0770971 
XxX 0068402 3.00047 1.09726 0761474 
x3 0.074518 3.06754 1.13555 0714161 
X1X3X4 0.065414 3.30304 1.15043 0794705 
X2X3X4 0062082 3.32392 1.17491 0.805163 
x2X4 0063744 3.59101 1.18531 D.7FFA6 
Xx X2X3 0059670 341287 1.26558 0.317730 
X3X4 0080605 3.25004 1.25314 0.718921 
x1Xa4 0.069965 3.004415 1.30194 0756023 
Xx 1 0.080208 3.31562 1.30275 0.602334 
Xx X3X4X5 0.059169 3.37362 1.36867 0834936 
X1X2X4 0.064 143 3.9402 1.39834 0.7083692 
X3X4X5 0.072505 3.49695 1.42056 0772450 
X1X2X3X4 0066088 3.95854 1.52344 0.315633 
X5 0.111 779 4.17839 1.72511 0571234 
X4Xs 0.105648 4112729 1.7734 0631593 
X4 0.156708 485870 2.82207 0253819 


que es pequeño comparado con el tiempo de vuelo promedio para los 13 pateadores. Y 

En la sección 12.9 indicamos que a menudo es aconsejable utilizar todos los sub- 
conjuntos posibles de regresión cuando se busca el mejor modelo. La mayoría de los 
programas comerciales de cómputo para estadística contienen una rutina de todas las 
regresiones posibles. Tales algoritmos calculan diversos cniterios para todos los sub- 
conjuntos de términos del modelo. Es evidente que enteros como AS, s* y PRESS son 
razonables para elegir entre subconjuntos de candidatos. Otro estadistico muy popular 
y útil, en particular para las ciencias físicas e ingeniería, es el estadistico €, que se des- 
cribe a continuación. 
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Tabla 12.14: Residuales PRESS. 





Pateador y; $; Ei =Yi—$ ¡ hi ó; 
l 4.750 4470 0.280 (0.198 0.349 
2 4.070 3.728 0.342 0.118 0.358 
3 4.040 4.0094 —0.054 0.444 —0.097 
2 4.180 4.146 0.034 0.132 0.039 
> 4.350 4.307 0.043 0.286 0.060 
6 4.160 4.281 —0.121 0.250 —0.161 
7 4.430 4515 —0.085 0.298 —(0. 121 
ha 3.200 3.184 0.016 0.294 0.023 
y 3.020 3.174 —(0.154 0.301 —0.220 
10 3.040 3.0360 0.004 0.231 0.005 
11 3.680 3.087 —0.007 0.152 —0.008 
12 3.600 3,553 0.047 0.142 0.055 
13 3.550 4.196 —0.346 0.154 —0.409 


El estadístico €, 


Muy a menudo la selección del modelo más adecuado implica tomar en cuenta muchas 
cosas. Evidentemente el número de términos del modelo es importante; el tema de la 
parsimonia no debe ignorarse. Por otro lado, el analista no debe sentirse satisfecho con 
un modelo demasiado simple hasta el punto de una simplificación excesiva. En este sen- 
tido, un estadístico único que implica un compromiso aceptable es C,. (Véase Mallows, 
1973, en la bibliografía). 

El estadístico €, apela de forma muy adecuada al sentido común y se desarrolla 
tomando en cuenta el equilibrio apropiado entre el sesgo excesivo en que se incurre 
cuando se subajusta, es decir, cuando se eligen muy pocos términos para el modelo; y 
la varianza excesiva de la predicción que se genera cuando se sobreajusta, o sea cuando 
hay redundancias en el modelo. El estadístico €), es una función simple del número total 
de parámetros en el posible modelo y la media cuadrada del error s*. 

Aqui no presentaremos el desarrollo completo del estadistico €,. (Para mayores de- 
talles 5e recomienda consultar a Myers, 1990, listado en la bibliografía). El €, para un 
subconjunto particular de modelos es un estimado de lo siguiente: 


lar 1, de 
Lo = 32 Vat) + A y esgodi)”. 
i=1 


i=1 


Se descubre que, bajo las suposiciones estándar de los mínimos cuadrados que se indica- 
ron con anterioridad en este capitulo, y asumiendo que el modelo “verdadero” es aquel 
que contiene todas las posibles variables, 


la 
pa] y Var +;) =p (número de parámetros en el posible modelo) 


f=l 
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(véase el ejercicio de repaso 12.63) y un estimado no sesgado de 


_ (on —p) 


l n | 1 a A 
= y (Sesgo$;)* es dad —= y Sesgot;)” | 
pa A (Sesgov;¡)” es o por pe Í goy;) pe 


i=1 r=l 
En las ecuaciones anteriores s* es el cuadrado del error para el posible modelo 
y 07 es la varianza del error de la población. Ási, si asumimos que se dispone de algún 
estimado 67 para 07, entonces €, es dado por la siguiente ecuación: 


Estadistico €, 


(5 — Na —p) 


Cp =p + 52 z 
donde p es el número de parámetros en el modelo, s* es el cuadrado medio del error para 
el modelo candidato y 47 es un estimador de (77. 


Es evidente que el científico debería adoptar modelos con valores pequeños de €... 
El lector observará que, a diferencia del estadístico PRESS, €, carece de una escala. 
Además, se puede obtener cierta información acerca de qué tan adecuado es un posible 
modelo observando su valor de €. Por ejemplo, €, > p indica que un modelo está ses- 
gado debido a que está subajustado, mientras que €, = p indica un modelo razonable. 

Con frecuencia hay confusión respecto a la procedencia de 4 en la fórmula para C,. 
Ex evidente que el científico o ingeniero no tienen acceso a la cantidad e? de la pobla- 
ción. En aplicaciones donde se dispone de corridas repetidas, digamos en situaciones de 
diseño experimental, se dispone de un estimado de * independiente del modelo (véase 
los capítulos 11 y 15). Sin embargo, la mayoría de paquetes de cómputo utilizan (* 
como el cuadrado medio del error del modelo más completo. Evidentemente, si éste no 
es un buen estimado, la parte de sesgo del estadístico €, puede ser negativa. Por cons1- 
gutente, €, puede ser menor que p. 


13. EXPERIMENTOS DE UN FACTOR GENERAL 


13.2.técnica de análisis de varianza 


En el material sobre estimación y prueba de hipótesis que se cubrió en los capitulos Y y 
10 en cada caso nos limitamos a considerar sólo dos parámetros de la población. Ése fue 
el caso, por ejemplo, en la prueba de la igualdad de dos medias de la población, en la 
cual se usaron muestras independientes de poblaciones normales con varianza común 
pero desconocida, y en donde se necesitaba obtener un estimado agrupado de e *. 

El material que se refiere a las inferencias de dos muestras representa un caso 
especial de lo que se denomina problema de un solo factor. Por ejemplo, en el ejer- 
ciclo 10.35 de la página 357 se midió el tiempo de supervivencia para dos muestras 
de ratones, en donde una muestra recibió un tratamiento de suero contra la leucemia 
y la otra no lo recibió. En este caso decimos que hay un factor, es decir, un frata- 
miento, y el factor se halla en dos niveles. 51 en el proceso de muestreo se utilizaran 
varios tratamientos en competencia, se necesitarían más muestras de ratones. En 
ese caso el problema implicaría un factor con más de dos niveles, por lo tanto, con 
más de dos muestras. 

En el problema de £ > 2 muestras se supone que hay £ muestras provenientes de k 
poblaciones. Un procedimiento muy común que se utiliza cuando se prueban medias de 
la población se denomina análisis de varianza, o ANOVA. 
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51 el lector ha estudiado el material acerca de la teoría de la regresión, el análisis de 
varianza no será, por supuesto, una técnica nueva para él. Utilizamos el método del aná- 
lisis de varianza para partir la suma total de cuadrados en dos partes, una parte debida a 
la regresión y otra debida al error. 

Suponga que en un experimento industrial a un ingeniero le interesa la forma en que 
la absorción media de humedad del concreto varía para 5 agregados de concreto diferen- 
tes. Las muestras se exponen a la humedad durante 48 horas y se decide que para cada 
agregado deben probarse 6 muestras, lo que hace que se requiera probar un total de 30 
muestras. En la tabla 13.1 se presentan los datos registrados. 

El modelo que se considera para esta situación es el siguiente. $e tomaron 6 obser- 
vaciones de cada una de las 3 poblaciones, con medias [£,, [L....., 1,. respectivamente. 


Hy Hi =p =--> = fis, 
H¡: Al menos dos de las medias no son iguales. 


Tabla 13.1: Absorción de humedad en agregados para concreto 


- Agregado: 1 2 3 j 5 

551 595 639 417 503 

457 580 615 449 631 

450 508 511 317 312 

731 583 573 438 613 

499 633 648 415 656 

632 317 677 555 679 
Total 3320 3416 3003 2791 3664 16,854 
Media 55333 56933 610.50 465.17 610.67 — 561.80 


Además, estamos interesados en realizar comparaciones individuales entre estas 5 me- 
dias de la población. 


Dos fuentes de variabilidad en los datos 


En el procedimiento del análisis de varianza se supone que cualquier variación que 
exista entre los promedios de los agregados se atribuye a 1) la variación en la absorción 
entre observaciones dentro de los tipos de agregados, y 2) la variación entre los tipos de 
agregados, es decir, a las diferencias en la composición química de los agregados. Por 
supuesto, la variación dentro de los agregados se debe a varias causas. Quizá las con- 
diciones de temperatura y humedad no se mantuvieron constantes durante el experl- 
mento. Es posible que haya habido cierta cantidad de heterogeneidad en los lotes de 
materias primas que se usaron. En todo caso debe considerarse la variación dentro 
de la muestra como una variación aleatoria 0 al azar. Parte del objetivo del análisis de 
varianza consiste en determinar si las diferencias entre las 5 medias muestrales son lo 
que se esperaría debido sólo a la variación aleatoria o si, más bien, se trata de una va- 
riación más allá de los simples efectos del azar, como las diferencias en la composición 
química de los agregados. 

En esta etapa surgen muchas preguntas acerca del problema anterior. Por ejemplo, 
¿cuántas muestras deben probarse para cada agregado? Esta es una pregunta que desafía 
continuamente al analista. Además, ¿qué pasaría si la variación dentro de la muestra 
fuera tan grande que al procedimiento estadistico le resultara dificil detectar las dife- 
rencias sistemáticas? ¿Es posible controlar de manera sistemática fuentes externas de 
waniación y asi eliminarlas de la parte que llamamos variación aleatoria? En las secciones 
siguentes intentaremos responder éstas y otras preguntas. 
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13.3, la estrategia del diseño experimental 


En los capitulos 9 y 10 se estudiaron los conceptos de la estimación y la prueba de hipó- 
tesis para el caso de dos muestras, bajo la importante perspectiva de la manera en que se 
realiza el experimento. Esto forma parte de la categoría amplia de los diseños experimen- 
tales. Por ejemplo, para la prueba f agrupada que se estudió en el capítulo 10, se supone 
que los niveles de los factores (los tratamientos en el ejemplo de los ratones) se asignan 
al azar a las unidades experimentales (los ratones). En los capitulos 9 y 10 analizamos el 


concepto de unidades experimentales y lo ilustramos por medio de varios ejemplos. En 
pocas palabras, las unidades experimentales son las unidades (ratones, pacientes, espe- 
cimenes de concreto, Hempo) que proporcionan la heterogeneidad que conduce al 
error experimental en una investigación científica. La asignación aleatoria elimina el 
sesgo que podría originarse con una asignación sistemática. El objetivo consiste en dis- 
tribuir en forma uniforme entre los niveles de los factores los riesgos que introduce la 
heterogeneidad de las unidades expermentales. Una asignación al azar simula mejor las 
condiciones que $e asumen en el modelo. En la sección 13.7 analizamos la formación 
de bloques en los experimentos. En los capitulos 9 y 10 se presentó el concepto, cuando 
se efectuaron comparaciones entre las medias usando el emparejamiento, es decir, la 
división de las unidades experimentales en pares homogéneos denominados bloques. 
Entonces, los niveles de los factores o tratamientos se asignan al azar dentro de los blo- 
ques. El propósito de la formación de bloques es reducir el error experimental efectivo. 
En este capítulo se extiende de manera natural el emparejamiento a bloques de tamaño 
mayor, con el análisis de varianza como la herramienta analítica principal. 


13.4. análisis de varianza unilateral diseño completamente aleatorio 


De £ poblaciones se seleccionan muestras aleatorias de tamaño n. Las £ poblaciones di- 
ferentes se clasifican base en un enterito único, como tratamientos o grupos distintos. 
En la actualidad el término tratamiento se utiliza por lo general para designar las diver- 
sas clasificaciones, ya sean diferentes agregados, analistas, fertilizadores o regiones del 
país. 


suposiciones e hipótesis del ANOVA de un solo factor 
$e supone que las £ poblaciones son independientes y que están distribuidas en forma 
normal con medias [£,. A...... 4, y varianza común *. Como se indicó en la sección 
13.2, estas suposiciones son más aceptables mediante la aleatoriedad. Se desean obtener 
métodos adecuados para probar las hipótesis 
Ho: My = io =-+-- = Hz, 
H¡: Al menos dos de las medias no son iguales. 


Sea que Te denote la f-¿sima observación del ¡-ésimo tratamiento, y el acomodo de los 
datos es el que se observa en la tabla 13.2. Aqui, Y es el total de todas las observaciones 
de la muestra, del 1-ésimo tratamiento, Yo es la media de todas las observaciones en la 
muestra del ¡-ésimo tratamiento, Y.. es el total de todas las 2£ observaciones, y Y... €5 
la media de todas las nk observaciones. 


Modelo de ANOVA para un solo factor 
Cada observación puede escribirse en la forma 
Y¡¿ = Mi + €i. 
donde €, mide la desviación que tiene la observación j-ésima de la ¿-¿sima muestra, con 


respecto de la media del tratamiento correspondiente. El término €, representa el error 
aleatorio y desempeña el mismo papel que los términos del error en los modelos de 
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Tabla 13.2: k muestras aleatorias 


Tratamiento: 1 2 ... i ... k 


Yu  Y21 es Vit Vki 

Yi Yy2 es Viz Vk2 

Yin  Y2n Y in Vin 
Total Yi Y, Y; Y, y 
Media Ya a *..- Ye .w*. ae y 


regresión. Una forma alternativa y preferible de esta ecuación se obtiene sustituyendo 


Y, =u +4, sujeta a la restricción $. 4; = 0. Por lo tanto, se escribe 


1=1 
Yi¿ =H +0; + €jj, 
donde ¡1 tan sólo es la media general de todas las 1. es decir, 


y A, se denomina el efecto del ¡-ésimo tratamiento. 
La hipótesis nula de que k medias de la población son iguales, en comparación con 
la alternativa de que al menos dos de las medias son distintas, ahora se puede reemplazar 


por las hipótesis equivalentes. 


Hi: a) =0=»-- =%=0, 
H;¡: Al menos una de las er, no es igual a cero. 


Resolución de la variabilidad total en componentes 
Nuestra prueba se basará en una comparación de dos estimados independientes de la 
vananza poblacional común (7. Dichos estimadores se obtendrán haciendo la partición 
de la variabilidad total de nuestros datos, denotados mediante la sumatoria doble 





É on 
i=l ¡¿=1 
en dos componentes. 
Identidad de la suma de cuadrados 
kÉ on k k on 
SN y Rd) IÓ O — Y 
i=l ¡¿=1 =1 i=l ¡=1 


En lo que sigue, será conveniente identificar los términos de la identidad de la suma 
de cuadrados con la siguiente notación: 
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Tres medidas Eo on 
importantes de STC = y $ O —5_ Y = suma total de cuadrados, 
variabilidad ¡1 ¡=1 
k 
SCT = 1 Y (5, —5.)” = suma de los cuadrados del tratamiento, 
t=1 





i=l ¡=1 


Entonces, la identidad de la suma de los cuadrados se puede representar simbólica- 
mente con la ecuación 
STC = SCT 4 5CE 
La identidad anterior expresa cómo las variaciones entre los tratamientos y dentro 
de los tratamientos contribuyen a la suma total de cuadrados. Sin embargo, se puede 
obtener mucha información s1 se investiga el valor esperado tanto de SCT como de ACE. 
Eventualmente calcularemos estimados de la varianza que determinan la razón que 


Teorema 13..: b 
E(SCT) =(k— D)o?+n Ya 


La prueba del teorema se deja como ejercicio para el lector (véase el ejercicio 13.53 de la 


página 556). 
51 A, es verdadera, un estimado de 7 * basado en k— 1 grados de libertad es dado por 
la expresión: 
Media cuadrática 
del tratamiento si= Sr 
o k—1 


51 A, es verdadera y por ello cada ax en el teorema 13.2 es igual a cero, se observa que 


FCT + 

E|— | =0* 
(3) i 

y 5; es un estimado no sesgado de 07? Sin embargo, si HA, es verdadera, se tiene que 


É 


SETA 2, OA 
E) = +2 oí, 


y sí estima a (7 más un término adicional, que mide la variación debida a los efectos 
sistemáticos. 
Otro estimado independiente de 07, basado en kn — 1) grados de libertad, es la 
fórmula familiar: 
Cuadrado medio vn 
del error 2 SCE 


"En 
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13.5. pruebas de la igualdad de varias varianzas 

Resulta aleccionador puntualizar la importancia de los valores esperados de los 
cuadrados medios a los que recién nos referimos. En la sección siguiente se estudia el 
empleo de una razón F con el cuadrado medio del tratamiento en el numerador. Se 
observa que cuando A, es verdadera, la presencia de la condición E( 5 ) > Es”) sugiere 
que la razón F se utiliza en el contexto de una prueba unilateral de cola superior. 
Es decir, cuando HA, es verdadera se esperaría que el numerador 5, fuera mayor que el 
denominador. 


Uso de la prueba F en el ANOVA 


El estimado 5” es no sesgado, independientemente de la veracidad o falsedad de la hipó- 
tesis nula (véase el ejercicio de repaso 13.52 de la página 556). Es importante señalar 
que la identidad de la suma de cuadrados ha hecho la partición no sólo de la variabilidad 
total de los datos, sino también del número total de grados de libertad. Es decir, 


Ím-—1=k-—1+ k(n — 1). 


Razón F para probar la igualdad de las medias 


Cuando H, es verdadera, la razón f= 5; /$ es un valor de la variable aleatoria F, que 
tiene la distribución F con k— 1 y a — 1) grados de libertad (véase el teorema 8.8). 
Como sí sobrestima a 0? cuando A, es falsa, se tene una prueba de una cola con la re- 
gión crítica localizada por completo en la cola derecha de la distribución. 
A un nivel de significancia de e $e rechaza la hipótesis nula A, cuando 
f> falk —1,£(n — DL. 
Otro método, el del valor P, sugiere que la evidencia a favor o en contra de A, es 


P=P(fIk—1, kn—D1>f). 


Los cálculos para un problema de análisis de varianza por lo general se resumen en 
forma tabular, como se observa en la tabla 13.3. 


Tabla 13.3: Análisis de vananza para el ANOWA de un solo factor 


Fuente de suma de Grados de Cuadrados F 
2 $CT 2 
Tratamientos SCT k-—1 == El 
2 yl 
4 SCE 
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13.6. Comparaciones de un solo grado de libertad 


El análisis de varianza en la clasificación de un solo factor, o experimento de un solo 
factor, como se le denomina con frecuencia, tan sólo indica 51 puede rechazarse o no la 
hipótesis de medias de tratamientos iguales. Por lo general, el expermentador preferiria 
efectuar un análisis más profundo. Como ilustración, en el ejemplo 13.1, mediante el 
rechazo de la hipótesis nula, concluimos que las medias no son iguales, pero aún no sa- 
bemos en dónde residen las diferencias entre los agregados. Es probable que el ingeniero 
intuya de antemano que los agregados 1 y 2 deberían poseer propiedades similares de 
absorción, al igual que los agregados 3 y 5. 51n embargo, sería interesante estudiar las 
diferencias entre los dos grupos. Asi, parece apropiado probar las hipótesis 

Ho pa + a — pa — is =0, 

Hi: pa + pa — pa — is Fl. 
Se observa que la hipótesis es una función lineal de las medias de la población, en las 
cuales los coeficientes suman cero. 


Definición 13.1: Cualquier función lineal de la forma 


E 
Ll = Y Cubs, 
i=1 


É 
donde Ye, = (0 se llama comparación o contraste en las medias de los tratamientos. 
Con frecuencia el experimentador puede hacer comparaciones múltiples probando la 
significancia de los contrastes de las medias de los tratamientos, es decir, probando una 
hipótesis del siguiente tipo: 


Estadistico de Nuestra hipótesis se prueba a un nivel de significancia (Y calculando 
prueba para 





2 2 
probar un (5 añ le, Y, /m;) 
contraste o WA E SCw 
Yen) — s* Ye /m) 


¡=1 ¿=1 


Aquí fes un valor de la variable aleatoria F que tiene distribución F con 1 y N—k grados 
de libertad. 
Cuando los tamaños de las muestras son iguales an, 


SCw == - 
nd 
f=1 


La cantidad 4€w, que se denomina suma de cuadrados de los contrastes 
parte de la 5€CT que se explica por el contraste en cuestión. 
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13.7. comparaciones múltiples 


Esta suma de cuadrados se empleará para probar la hipótesis de que 
k 


HH c¡Hj = 0 


f=1 


Con frecuencia es de interés probar contrastes múltiples, en particular contrastes que 50n 
linealmente independientes u ortogonales. Como resultado, se vuelve necesaria la si- 
gulente definición: 


Definición 13.2: Se dice que los dos contrastes 
£ k 
w= Y bip, y | úb= Y ci; 
i=1 i=1l 


k 
son ortogonales, si + bc; nm; = 0, o bien, cuando las n son iguales a 1, sl 
s=l É 
Y bic =0 
¡=1 


51 4, y e, son ortogonales, entonces las cantidades £¿€w, y $Cw, son componentes 
de $87, cada una con un solo grado de libertad. La suma de cuadrados de los tratamien- 
tos con k— | grados de libertad se puede dividir en, a lo sumo, £— | sumas de cuadrados 
de contrastes independientes con un solo grado de libertad que satistacen la identidad 

SCT = S5Cw, + SCw, + += + 5Cw,_ 


y? 


51 los contrastes son ortogonales entre si. 
13.8. comparación de tratamientos con un control 


El análisis de varianza es un procedimiento poderoso para probar la homogeneidad de un 
conjunto de medias. No obstante, si se rechazara la hipótesis nula y se aceptara la alter- 
nativa que se planteó (que no todas las medias son iguales), aún no se sabria cuáles de 
las medias de la población son iguales y cuáles son diferentes. 


The GLM Procedure 


229 





Dependent Variable: moieture 
Sum of 

Source DF Squares Mean Square  F Value Pr > F 
Model 1 B5156.-4667 213319.1167 4.30 D-008A 
Error 25 124020.-3333 4960-5133 
Corrected Total 29 —209376.8000 

E-Square Coeff Var Root MSE moisture Mean 

0.407669 12.53703 70.43304 561.8000 
Source DF Type 1 5 Mean Equare F Value Pr > E 
agregate á B5356.-46667 213339.11667 4.30 D0.D00AB 
Source DF Type 111 ££ Mean Square F Value Pr > E 
agregate á B5356.-46667 21339.11667 4.30 D0.00AB 
Contrast DF Contrast $5 Mean Square F Value Pr > F 
(1,2,3,5) va. 4 1 70035.-00833 70035.00833 14.12 0.0009 
(1,2) ve. (3,5) 1 14553.37500 14553.37500 2-33 0.0991 
1 va. 2 76B.00000 768 .00000 0.15 0.6973 
3 va. 5 0-08333 0.08333 D.00 0.-3996B 

Figura 13.4: Un conjunto de contrastes ortogonale: 
A menudo es de interés efectuar varias comparaciones por pares (quizá todas las 


que sean posibles) entre los tratamientos. En realidad, una comparación por pares se 
puede ver como un contraste simple, es decir, una prueba de 

Ho pi — pj =0, 

Hi: pj —p4j $0, 


para toda ¡ $ /. Hacer todas las comparaciones posibles por pares entre las medias puede 
ser muy benéfico cuando no se conocen a priori contrastes complejos particulares. Por 
ejemplo, suponga que se desea probar las hipótesis siguientes, con los datos de los agre- 
gados de la tabla 13.1: 

Ho: ti — is = 0 

Hi: pi — Hs + o 
La prueba se desarrolla usando una F, una £, o el método de los intervalos de confianza. 
31 se usa la £, se tiene que 

f= YI. — NS. 


5/2/m 


donde s es la raíz cuadrada del cuadrado medio del error y n = 6 es el tamaño de la 
muestra por tratamiento. En este cazo, 
553.33 — 610.67 
f= = —1.41. 


TEN 
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El valor P para la prueba 1 25 grados de libertad es 0.17. Así que no hay evidencia 
suficiente para rechazar H.. 


Relación entre T y F 


Anteriormente se expuso el uso de una prueba / agrupada, junto con los lineamientos que 
se estudiaron en el capitulo 10. El estimado agrupado se tomó del cuadrado medio del 
error con el fin de aprovechar los grados de libertad que están agrupados en las cinco 
muestras. Además, probamos un contraste. El lector debería observar que si el valor t se 
eleva al cuadrado, el resultado tene exactamente la misma forma que el valor de f para 
una prueba del contraste, analizada en la sección anterior. En efecto, 


GLI (553.33 — 610.67)? 
P= ajo aa 


que es, por supuesto, 14. 


Método del intervalo de confianza para una comparación por pares 


Es fácil resolver el mismo problema de una comparación por pares (o un contraste) usando 
el método del intervalo de confianza. Es claro que, s1 se calcula un intervalo de confian- 
za del 100(1 — 01)% sobre 1 — p,, se tiene que 


— 


_ _ 12 
Yi. Ys laj23 6 


donde +,,,, es el punto superior de 100(1 -4/21% de una distribución f con 25 grados de 
libertad (grados de libertad que provienen de 5%). Esta conexión inmediata entre las prue- 
bas de hipótesis y los intervalos de confianza deberia ser evidente a partir de los análisis 
de los capitulos 9 y 10. La prueba de un contraste simple ft, — 1, no implica más que 
observar si el intervalo de confianza anterior cubre o no al cero. Al sustituir los números 
se tiene que el intervalo de confianza de 95%: 


fi 
(553.33 —610.67) + 2.060 y4961 y 3" —37.34 + 83.77. 


Por consiguiente, como el intervalo de confianza cubre al cero, el contraste no es signl- 
ficativo. En otras palabras, no hay diferencia significativa entre las medias de los agrega- 
dos l y 5. 


Tasa de error por experimento 


Se presentan muchas dificultades cuando el analista intenta hacer muchas o todas las 
comparaciones por pares posibles. Para el caso de k medias habrá, desde luego, r = 
kk — 19/2 comparaciones por pares posibles. $1 se suponen comparaciones indepen- 
dientes, la tasa de error por experimento o tasa de error por familia, es decir, la probabi- 
lidad de un falso rechazo de al menos una de las hipótesis, es dada por 1 — (1 -— ar, 
donde tres la probabilidad seleccionada del error tipo 1 para una comparación especifica. 
Es claro que esta medida del error tipo 1 por experimento sería bastante grande. Por 
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ejemplo, aun s1 sólo hubiera 6 comparaciones, digamos, en el caso de 4 medias, y 
ar = 0.05, la tasa de experimento-juicio sería 


1 — (0.95) = 0.26. 


Cuando se prueban muchas comparaciones por pares, por lo general existe la neces1- 
dad de hacer el contraste efectivo sobre una sola comparación más conservadora. Es decir, 
usando el método del intervalo de confianza, los intervalos de confianza serían mucho 
más anchos que +1, ,5,/2/n que se emplea para el caso de una sola comparación. 


Prueba de Tukey 


Hay vanos métodos estándar para realizar comparaciones por pares que den credibilidad 
a la tasa del error tipo 1. Aquí se analizarán e ilustrarán dos de ellos. El primero, denomi- 
nado procedimiento de Tukev, permite la formación de intervalos de confianza del 
100(1 — 01% simultáneos para todas las comparaciones por pares. El método se basa en 
la distribución del rango estudentizado. El punto apropiado del percentil es una función 
de dr, k y y = grados de libertad para . En la tabla A.12 se presenta una lista de puntos 
porcentuales superiores adecuados para € = 0.05, El método de Tukey de comparacio- 
nes por pares implica encontrar una diferencia significativa entre las medias ¡y ¡(1 +7) 
si |y, — y,| excede a gía, k, E. 

El procedimiento de Tukey se ilustra con facilidad. Considere un ejemplo hipotético 
en el que se tienen 6 tratamientos en un diseño completamente aleatorizado de un 
solo factor, en el que se hacen 5 observaciones por tratamiento. Suponga que el cuadrado 
medio del error tomado de la tabla del análisis de varianza es s = 2,45 (24 grados de 
libertad). Las medias muestrales están en orden ascendente, 

Y2. ys. Yi. Ya. Ye. Ya. 
1450 1675 1984 2112 220900 2320 


Con a = 0.05, el valor de (0.05, 6, 24) es 4.37. Asi, todas las diferencias absolutas se 
comparan con 


12,45 
4.37 y a = 3.059. 


Como resultado, las siguientes representan medias que, usando el procedimiento de 
Tukey, se encuentra que sigmbicativamente diferentes: 


4yl, 4y5, 4dy2, 6yl, 6yS, 
6y2, 3y5S 3y2 1y5 lyZ 


¿De dónde proviene el nivel a: en la prueba de Tukey? 


Se mencionó brevemente el concepto de intervalos de confianza simultáneos que se 
emplean para el procedimiento de Tukey. El lector obtendrá una perspectiva útil del 
concepto de comparaciones múltiples, sí comprende el significado de los intervalos de 
confianza simultáneos. 

En el capítulo 9 vimos que, sí se calcula un intervalo de confianza de 95% para, di- 
gamos, una media 1, entonces la probabilidad de que el intervalo cubra la media verda- 
dera es 0.95. 


LL 


Sin embargo, vimos antes, para el caso de comparaciones múltiples la probabili- 
dad efectiva de interés está ligada la tasa de error por experimento, y debe hacerse 
énfasis en que los intervalos de confianza del tipo y, — Y, +g(a, k, vis, [1/n no son 1n- 
dependientes, ya que todos implican a $ y muchos utilizan los mismos promedios, las y. 
A. pesar de tales dificultades, si se utiliza la (0.05, E, v), el nivel de confianza simultáneo 
está controlado en un 95%. Lo mismo es cierto para q(0.01, £, v), es decir, el nivel de 
confianza está controlado en un 99%. En el caso de a = 0.05, hay una probabilidad 
de 0.05 de que se encuentre falsamente que al menos un par de mediciones son diferen- 
tes (falso rechazo de al menos una hipótesis nula). En el caso de a = 0.01, la probabilidad 
correspondiente será 0.01. 


13.9. Comparación de un conjunto de tratamientos en bloques 


En la sección 13.2 estudiamos la idea de la formación de bloques, es decir, de aislar 
conjuntos de unidades experimentales que son razonablemente homogéneas y asignarles 
tratamientos de forma aleatoria. Ésta es una extensión del concepto de “formar pares” 
que se analizó en los capítulos 9 y 10, y se hace para reducir el error experimental, ya que 
las unidades en un bloque tienen más caracteristicas comunes que las unidades localiza- 
das en diferentes bloques. 

El lector no debería considerar los bloques un segundo factor, aunque ésa 
sea una forma tentadora de visualizar el diseño. De hecho, el factor principal (los trata- 
mientos) aún lleva el peso mayor del experimento. Las unidades experimentales siguen 
siendo la fuente del error, igual que en el diseño completamente aleatorizado. Con la 
formación de bloques simplemente tratamos a dichas unidades de manera más sistemátl- 
ca. De ese modo, se dice que la aleatoriedad tiene restricciones. Antes de iniciar el estudio 
de la formación de bloques revisaremos dos ejemplos de un diseño completamente 
aleatorizado. El primer ejemplo es un experimento quimico diseñado para determinar s1 
hay una diferencia en la reacción media producida por cuatro catalizadores. Las mues- 
tras de los materiales que tienen que probarse se extraen de los mismos lotes de materias 
primas, a la vez que se mantienen constantes otras condiciones como la temperatura y 
concentración de los reactivos. En este caso, la hora del día en que se efectúan las corridas 
experimentales podría representar las unidades expermentales, y si el expermmentador 
considera que es posible que haya un ligero efecto del tempo, aleatorizaría la asignación 
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de los catalizadores a las corridas para contrarrestar la posible tendencia. Como un se- 
gundo ejemplo de dicho diseño, considere un experimento para comparar cuatro méto- 
dos para medir una propiedad física en particular de un fluido. Suponga que el proceso 
de muestreo es destructivo, es decir, que una vez que se ha medido una muestra de la 
sustancia usando un método, ya no puede medirse nuevamente con ningún otro. 51 se 
decide hacer cinco mediciones con cada método, entonces se seleccionan al azar 
20 muestras del material de un lote grande y se utilizan en el experimento para comparar 
los cuatro métodos de medición. Las unidades experimentales son las muestras seleccio- 
nadas al azar. Cualquier variación de una muestra a otra aparecerá en la variación del 
error, según se mida con s en el análisis. 


¿Cuál es el propósito de formar bloques? 


13.10. 


51 la variación debida a la heterogeneidad en las unidades experimentales es tan grande 
que la sensibilidad para detectar diferencias de tratamiento se reduce debido a un valor 
aumentado de s*, un plan mejor sería “bloquear” la variación debida a esas unidades y, 
por consiguiente, reducir la variación ajena a la que es explicada por bloques más peque- 
ños o más homogéneos. Por ejemplo, suponga que en el ejemplo anterior de los cataliza- 
dores se supiera a priori que existe en definitiva un efecto significativo diario sobre el 
producto, y que es posible medir el producto para cuatro catalizadores en un día especi- 
fico. En lugar de asignar los 4 catalizadores a las 20 corridas de prueba completamente 
al azar, se eligen, por ejemplo, 3 días y se prueba cada uno de los cuatro catalizadores 
cada día, asignándolos al azar a las corridas dentro de los días. De esta manera se elimina 
la variación diaria del análisis y, en consecuencia, el error experimental, que aún incluye 
cualquier tendencia temporal dentro de los días, representa con más precisión la varia- 
ción aleatoria. Á cada día se le denomina bloque. 

El más directo de los diseños aleatorizados de bloques es aquel en el cual se asigna 
al azar un tratamiento a la vez a cada bloque. Á un plan experimental como éste se le 
denomina diseño de bloques completos aleatorizados (BCA) y cada bloque constituye 
una sola réplica de los tratamientos. 


Diseño de bloques completos aleatorios 


Un plan clásico para el diseño de bloques completos aleatorizados (BCA) usando tres 
mediciones en cuatro bloques es el siguiente: 


Bloque 1 Bloquea 2 Bloque 3 Bloque 4 


E; ta 
Pa E, 
lo ta 


Las £ denotan la asignación de cada uno de 3 tratamientos a los bloques. Desde luego, la 
asignación verdadera de los tratamientos a las unidades dentro de los bloques se hace 
al azar. Una vez que ha finalizado el expenmento, los datos se pueden registrar como en el 
siguiente arreglo de 3 x 4: 
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Tratamiento Bloque: 1 2 3 + 


l a Ni Yias Jia 
2 Va Ya Ya Ya 
3 Ja Ya Ya as 


donde y,, representa la respuesta que se obtiene al utilizar el tratamiento 1 en el bloque 1, 
y,, €s la respuesta que se obtiene al utilizar el tratamiento 1 en el bloque 2..... y y, es la 
respuesta que se obtiene al utilizar el tratamiento 3 en el bloque 4. 

Ahora vamos a generalizar y a considerar el caso de k tratamientos asignados a 
b bloques. Los datos se pueden resumir tal como se observa en el arreglo rectangular de 
k x b de la tabla 13.7. 5e supondrá que las Y ¡=1,2...,k y = 1,2...., b, son valores 
de variables aleatorias independientes que tienen distribuciones normales con media l, 
y vananza común (77. 


Tabla 13.7: Arreglo de k x b para el diseño de BCA 


Tratamiento 1 2 EN j a b Total Media 
l Yu Ya «<< Mii + Ylb PT Yi. 
2 Ya )2 «e Nao + Y2b 157 Ya. 
i Vil Nil. Yi +.  Yib A Yi 
k Yi YE o -- bo o -- JH ÍL Y£ 





sea 1 el promedio (en lugar del total) de las b medias de la población para el 
-ésimo tratamiento. Es decir, 


h 
l de 
Hi = pa Y pj, para i= l..... ¿E 


j=1 


De manera similar, el promedio de las medias de la población para el ¡-¿simo bloque, H. 
es definido por 


1 
Uj= 7 ) Mp paraj= 1,...,b 


f=1l 


y el promedio de las bk medias de la población, 4, es definido por 


LA 
u= >= y y Hi. 


i=l ¡=1 


Para determinar $1 parte de la variación de nuestras observaciones se debe a diferencias 
entre los tratamientos, se considera la siguiente prueba: 


Hipótesis de E A o 
medias iguales Ho: a. = pa =--* a = 4, 


de los tratamientos H¡: No todas las e; son Iguales. 
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13.11. Métodos gráficos y diagnósticos posteriores 


En varios capítulos de este libro se hace referencia a procedimientos gráficos para mos- 
trar datos y resultados analíticos. En los primeros capítulos se usaron gráficas de tallo y 
hojas y de caja y extensión como auxiliares visuales para resumir muestras. En el capi- 
tulo 10 se emplearon diagnósticos similares para entender mejor los datos de dos proble- 
mas de muestreo. En el capitulo 11 se introdujo el concepto de gráfica de residuales para 
detectar violaciones de las suposiciones estándar. En los últimos años gran parte de la 
atención dedicada al análisis de datos se ha centrado en los métodos gráficos. Al igual 
que en la regresión, el análisis de varianza se presta a la elaboración de gráficas que 


ayudan a resumir los datos y a detectar violaciones. Por ejemplo, una gráfica sencilla de 
las observaciones brutas alrededor de la media de cada tratamiento proporciona al ana- 
lista una noción de la variabilidad entre las medias muestrales y dentro de las muestras. 
La figura 13.7 ilustra una de tales gráficas para los datos de agregados que se presentan 
en la tabla 13.1. A partir de la apariencia de la gráfica se obtiene incluso una idea de 
cuáles agregados (s1 los hubiera) destacan de los demás. Es evidente que el agregado 4 
resalta del resto, y que los agregados 3 y 5 forman un grupo homogéneo, así como los 
agregados l y 2. 


600 , +3 Fat 


+HYa 


E 


$5, 


Fat 





Agregado 


Figura 13.7: Gráfica de los datos alrededor de la Figura 13.8: Gráfica de los residuales para cinco 
media para los datos de los agregados de la tabla 13.1. agregados con los datos de la tabla 13.1. 


Como ocurre en el caso de la regresión, los residuales son útiles en el análisis de 
varianza para dar un diagnóstico sobre la detección de violaciones de los supuestos. Para 
formar los residuales sólo necesitamos considerar el modelo del problema de un solo 
factor, que es 


Ni =Hi + Ej. 


Es fácil determinar que el estimado de pu, es y,. Por lo tanto, el ¡¡-ésimo residual es y, — y, 
lo cual se extiende fácilmente al modelo de bloques completos aleatorizados. Sería alec- 
cionador graficar los residuos para cada agregado con el fin de obtener cierta información 
sobre la suposición de varianza homogénea. Esta gráfica se muestra en la figura 13.8. 

Las tendencias en gráficas como éstas podrían revelar dificultades en ciertas situa- 
ciones, especialmente cuando la violación de una suposición en particular se manifiesta 
en la gráfica. En el caso de la figura 13.8, los residuales parecen indicar que las varian- 
zas dentro de los tratamientos son razonablemente homogéneas, excepto la del agrega- 
do 1. Hay cierta evidencia gráfica de que la varianza del agregado | es más grande que 
la del resto. 
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13.12. Transformaciones de datos en el análisis de varianza 


En el capitulo 11 se puso mucha atención a la transformación de la respuesta y en situa- 
ciones para las que se ajustaba un modelo de regresión lineal a un conjunto de datos. Es 
evidente que se aplican los mismos conceptos a la regresión lineal múltiple, aunque 
esto no se analizó en el capítulo 12. En el estudio de los modelos de regresión se hizo 
énfasis en las transtormaciones de y que producirían un modelo que se ajustara mejor a 
los datos que uno en el que la y ingresara de forma lineal. Por ejemplo, sí la estructura 
del “tempo” es de naturaleza exponencial, entonces una transformación logarítmica de 


Y linealiza la estructura y, por lo tanto, se anticipa más éxito cuando se utiliza la res- 
puesta transformada. 

Aunque el propósito fundamental de la transformación de datos que se ha analiza- 
do hasta este momento ha sido mejorar el ajuste del modelo, hay otras razones para 
transformar o reexpresar la respuesta y, y muchas de ellas se relacionan con las suposl- 
ciones que se hacen, por ejemplo, las suposiciones de las cuales depende la validez del 
análisis. Una suposición muy importante en el análisis de varianza es la de la varianza 
homogénea que se estudió antes en la sección 13.4. Se supone una varianza común 0*. 
S1 la varianza difiere mucho de un tratamiento a otro, y se realiza el ANOVA estándar 
que se estudia en este capitulo (y en otros posteriores), los resultados serían muy defi- 
cientes. En otras palabras, el análisis de varianza no es robusto respecto a la suposición 
de varianza homogénea. Como se ha dicho hasta el momento, se trata del motivo prin- 
cipal para la graficación de los residuales que estudiamos en la sección anterior y que 
lustramos en las figuras 13.9, 13.10 y 13.11. Esas gráficas permiten detectar problemas 
debidos a una varianza no homogénea. 3in embargo, ¿qué hay que hacer al respecto? 
¿Cómo se corrigen? 


13.13. modelos de efectos aleatorios 


A lo largo de este capítulo estudiamos los procedimientos del análisis de varianza en los 
que el objetivo principal es estudiar el etecto sobre ciertas respuestas de ciertos tratamien- 
tos fijos o predeterminados. Los experimentos en los que los tratamientos o los niveles de 
tratamiento son preseleccionados por el experimentador, y no elegidos al azar, se deno- 
minan experimentos de efectos fijos. Para el modelo de efectos fijos sólo se hacen infe- 
rencias acerca de los tratamientos especificos que se utilizaron en el experimento. 

Con frecuencia es importante que el expermentador sea capaz de hacer inferencias 
acerca de una población de tratamientos a través de un experimento en el que los trata- 
mientos empleados se elijan al azar de entre la población. Por ejemplo, un biólogo podria 
estar interesado en saber 51 hay o no una varianza sigmbicativa en alguna característica 
isiológica debida a un tipo de animal. Los tipos de animales que en realidad se usan en 
el expenmento se eligen al azar y representan los efectos del tratamiento. Un químico 
podria estar interesado en estudiar el efecto de los laboratorios sobre el análisis químico de 
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una sustancia; no le interesa un laboratorio en particular, sino una población grande de 
laboratorios. Ási, podría seleccionar al azar un grupo de laboratorios y asignar muestras 
a cada uno para su análisis. Entonces, la inferencia estadistica implicaría 1) probar sí los 
laboratorios contribuyen o no a una vananza diferente de cero en los resultados de los aná- 
lisis, y 2) estimar la varianza debida a los laboratorios y a la varianza dentro de los mismos. 


Modelo y suposiciones para el modelo de efectos aleatorios 


El modelo de efectos aleatorios de un solo factor se escribe como el modelo de efectos 
fijos, pero sus términos tienen significados diferentes. La respuesta yy = + 0,+€, €s 
ahora un valor de la variable aleatoria | 


Ej =pu4+A, + Ej, con li = A A yj= l, A 


donde las A, tienen distribución normal e independiente con media igual a cero y varian» 

za 0. y son independientes de las E, Al igual que para el modelo de efectos fijos, Las €, 

también tienen distribución normal e independiente con media igual a cero y varianza 

o”. Observe que para un expenmento de efectos aleatorios, ya no se aplica la restricción 
k 


de que (1 =0). 


E 
ful 


Teorema 13.4: Para el modelo del análisis de varianza de efectos aleatorios de un solo factor, 
E(5CT)=(k-— Do “+nk-Do0 y  E(SCE)=kn— la”. 


La tabla 13.11 presenta los cuadrados medios esperados tanto para un experimento 
de efectos fijos como para uno de efectos aleatorios. Los cálculos para un experimento de 
efectos aleatorios se realizan exactamente de la misma forma que los del experimento 
de efectos fijos. Es decir, la suma de cuadrados, los grados de libertad y las columnas de 
los cuadrados medios en la tabla del análisis de varianza son iguales para ambos modelos. 

Tabla 13.11: Cuadrados medios esperados para el experimento de un solo factor 


—Fuentede  Gradosde Cuadrados Cuadrados medios esperados 
ariació libertad medios Efectos fijos Efectos aleatorios 
Tratamientos k-—1 si o+ == Vo aóá+nal 
Error kin —1) 57 a? o? 
Total nk — 1 


Para el modelo de efectos aleatorios la hipótesis de que todos los efectos del trata- 
miento son iguales a cero se escribe como sigue: 


Hipótesis para un 
experimento de A 
efectos aleatorios H¡: 6, FL. 


Ho: a =0, 


Esta hipótesis afirma que los diferentes tratamientos no contribuyen en absoluto a la 
variabilidad de la respuesta. De la tabla 13.11 es evidente que tanto 5 como 57 son esti- 
mados de 7 cuando A, es verdadera, y que la razón 
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es un valor de la variable aleatoria F que tiene la distribución F conk-—1 y hna-— 1) gra- 
dos de libertad. La hipótesis nula se rechaza a un nivel de significancia e cuando 


F> falk— 1, k(n — 1)]. 


En muchos estudios científicos y de ingeniería el interés no se centra en la prueba F. 
El científico sabe que el efecto aleatorio, en efecto, es significativo. Lo más importante 
es la estimación de los diversos componentes de la varianza. Ésto produce un sentido de 
jerarquía en términos de cuáles factores producen la mayor variabilidad y en qué cantidad. 
En este contexto podría ser interesante cuantificar cuánto más grande es el componente 
de la varianza de un solo factor que el producido por el azar (variación aleatoria). 


Estimación de los componentes de la varianza 


La tabla 13.11 también se utiliza para estimar los componentes de la varianza 07 y al. 
Como 5, estima 0 + nO, y $ estima 07, 
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13.14. Estudio de caso 





Estudio de caso 13.1: [Análisis químico. Se pidió al personal del Departamento de Química de Virginia Tech 
que analizara un conjunto de datos que se obtuvo para comparar 4 métodos distintos de 
análisis del aluminio en cierta mezcla deflagradora sólida. Para considerar una amplia 
gama de laboratorios de análisis se utilizaron 5 de ellos en el experimento. 5€e seleccio- 
naron esos laboratorios porque suelen realizar esa clase de análisis. Se asignaron al azar 
20 muestras de material deflagrador que contenían 2.70% de aluminio, cuatro a cada 
laboratorio, y se dieron instrucciones acerca de cómo efectuar los análisis químicos ut» 
lizando los cuatro métodos. Los datos que se obtuvieron son los siguientes: 


Método 1 2 3 4 5 Media 


267 269 262 266 270 2.668 
21 274 269 270 277 272 
276 276 270 276 28l 2.758 
265 269 260 264 273 2662 


o 


Los laboratorios no se consideran efectos aleatorios, ya que no fueron seleccionados 
al azar de entre una población más grande de ellos. Los datos se analizaron como un 
diseño de bloques completos aleatorizados. Se dibujaron gráficas de los datos para deter- 
minar s1 era apropiado un modelo aditivo del tipo: 


Yi =p +mM; + Í; + Ej 
en otras palabras, un modelo con efectos aditivos. El bloque aleatorizado no es adecuado 
cuando existe interacción entre los laboratorios y los métodos. Considere la gráfica de 
la figura 13.12. Aunque es un poco dificil de interpretar porque cada punto representa 
una sola observación, parece que no hay interacción evidente entre los métodos y los 
laboratorios. 


2.857 


A B C D 
Método 


Figura 13.12: Gráfica de interacción para los datos del estudio de caso 13.1. 
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Gráficas de residuales 


Las gráficas de residuales se usaron como indicaciones de diagnóstico con respecto a la 
suposición de una varianza homogénea. La figura 13.13 presenta una gráfica de residua- 
les contra los métodos de análisis. La vanabilidad desenta en los residuales parece ser 
bastante homogénea. Para completar, en la figura 13.14 se presenta una gráfica de pro- 
babilidad normal de los residuales. 





Residual 





Método Cuantil normal estánda: 
Figura 13.13: Gráfica de residuales en comparación Figura 13.14: Gráfica de probabilidad normal de 
con el método para los datos del estudio de caso 13.1. — residuales para los datos del estudio de caso 13.1. 





Las gráficas de residuales no muestran problemas con la suposición de errores nor- 
males ni la de varianza homogénea. Para hacer el análisis de varianza se utilizó la 


función PROC GLM del programa SAS. En la figura 13.15 se incluye una salida de re- 
sultados por computadora con comentarios. 

Los valores fy P calculados si indican una diferencia significativa entre los métodos 
de análisis. A este análisis le puede seguir un análisis de comparación múltiple para de- 
terminar en dónde están las diferencias entre los métodos. 
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14. EXPERIMENTOS FACTORIALES 
14.2.introducción 


Considere una situación en la que haya interés por estudiar el efecto de dos factores, A 
y B, sobre alguna respuesta. Por ejemplo, en un experimento químico nos gustaría variar 
en forma simultánea la presión de reacción y el tiempo de reacción, y estudiar el efecto 
que uno tiene sobre el producto. En un experimento biológico resulta de interés 
estudiar el efecto que tienen el tiempo de secado y la temperatura sobre la cantidad de 
sólidos (porcentaje por peso) que queda en muestras de levadura. Igual que en el capitulo 
13, el término factor se utiliza en un sentido general para denotar cualquier caracte- 
riística del experimento que pueda variar de un ensayo a otro, como la temperatura, el 
tiempo o la presión. Los niveles de un factor se definen como los valores reales que se 
utilizan en el experimento. 

Para cada uno de estos casos es importante determinar no sólo si cada uno de los 2 
factores influye en la respuesta, sino también si hay una interacción significativa entre 
ellos. En lo que se refiere a la terminología, el experimento descrito aquí es de 2 factores, 
y el diseño expermmental podría ser uno completamente aleatorizado, en el que las distin- 
tas combinaciones de tratamiento se asignan al azar a todas las unidades experimentales, 
o bien, un diseño de bloques completos aleatorizados, donde las combinaciones de facto- 
res se asignan al azar dentro de los bloques. En el ejemplo de la levadura, s1 se empleara 
un diseño completamente aleatorizado, las distintas combinaciones de tratamientos de 
temperatura y tempo de secado se asignarían al azar a las muestras de levadura. 

Muchos de los conceptos que se estudiaron en el capítulo 13 se extienden a 2 y 
3 factores en este capitulo. El objetivo principal de este matenal es el uso del diseño 
completamente aleatorizado con un experimento factorial. Un experimento factorial con 
2 factores implica ensayos experimentales (o uno solo) con todas las combinaciones de 
factores. Por ejemplo, en el caso de la temperatura y tempo de secado con, digamos, 3 
niveles de cada uno y 1 = 2 corridas por cada una de las 9 combinaciones, tendríamos un 
experimento factorial de 2 factores en un diseño completamente aleatorizado. Ninguno 
de ellos es un factor de bloqueo; nos interesa la manera en que cada uno influye en el 
porcentaje de sólidos en las muestras, y si interactúan o no. El biólogo dispondria de 18 
muestras físicas de material que constituyen unidades experimentales. Luego, éstas se 
asignarían al azar a las 18 combinaciones (9 combinaciones de tratamiento, cada una de 
ellas por duplicado). 


Ántes de entrar en detalles analíticos, sumas de cuadrados y demás, sería intere- 
sante que el lector observe la clara conexión que existe entre lo que hemos descrito y la 
situación con el problema de un solo factor. Considere el experimento de la levadura. La 
explicación de los grados de libertad ayuda a que el lector o el analista visualicen la ex- 
tensión. En un inicio, las Y combinaciones de tratamientos deberían considerarse como 
51 representaran un factor con Y niveles (8 grados de libertad). Así, un vistazo inicial a 
los grados de libertad arroja lo siguiente: 


Combinaciones de tratamiento $ 


Error 9 
Total 17 


14.3. interacción y el experimento de dos factores 


En el modelo de bloques aleatorizados que se estudió previamente se supuso que en 
cada bloque se toma una observación de cada tratamiento. 51 la suposición del modelo 
es correcta, es decir, si los bloques y los tratamientos son los únicos efectos reales y no 
hay interacción, el valor esperado del cuadrado medio del error es la varianza del error 
experimental 0-. Sn embargo, suponga que existe interacción entre los tratamientos y 
los bloques, como lo indica el modelo 


yy = +0 +8 +18); + €s 
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de la sección 13.8. El valor esperado del cuadrado medio del error entonces es dado por 


$ kE  b 
| (11 + DET) 22 00% 


Los efectos del tratamiento y los bloques no aparecen en el cuadrado medio del error 
esperado, pero los efectos de la interacción si. Entonces, s1 en el modelo hay interacción, 
el cuadrado medio del error refleja variación debida al error experimental más una con- 
tnbución de la interacción y, para este plan experimental, no hay forma de separarlos. 


La interacción y la interpretación de los efectos principales 


Desde el punto de vista del experimentador, parecería necesario llegar a una prueba 
significativa sobre la existencia de una interacción, al separar la variación del error ver- 
dadero de aquel que se debe a la interacción. Los efectos principales, A y 8, adoptan 
un significado distinto en presencia de la interacción. En el ejemplo biológico anterior 
el efecto que tiene el tiempo de secado sobre la cantidad de sólidos que quedan en la 
levadura muy bien podría depender de la temperatura a la que se expusieron las mues- 
tras. En general, podrían existir situaciones experimentales en las que el factor A tuviera 
un efecto positivo sobre la respuesta en un nivel del factor 8; en tanto que con un nivel 
distinto de E el efecto de A sería negativo. Aquí se usa el término efecto positivo para 
indicar que el producto o la respuesta se incrementan conforme los niveles de un factor 
dado aumentan de acuerdo con cierto orden definido. En el mismo sentido, un efecto ne- 
gativo corresponde a una disminución de la respuesta al aumentar los niveles del factor. 

Considere, por ejemplo, los siguientes datos de temperatura (factor A con niveles £., 
Lyi (en orden creciente) y hempo de secado d.. d, y d, (también en orden creciente). 
La respuesta es el porcentaje de sólidos. Estos datos son completamente hipotéticos y se 


dan para dustrar un aspecto. 
B 
A di dx di Total 
f1 44 8588 52 154 


fa 15 865 2d 184 
f3 97 79 0s — 184 


Total 216 252 34 552 
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Es evidente que el efecto de la temperatura sobre el porcentaje de sólidos es po- 
sitivo para el tiempo breve de secado d, pero negativo para el tiempo prolongado d.. 
Esta interacción clara entre la temperatura y el tiempo de secado es evidentemente 
interesante para el biólogo; sin embargo, con base en los totales de las respuestas para 
las temperaturas £,. £, y £,, la soma de cuadrados de la temperatura, $€7, producirá un 
valor de O. Entonces, se dice que la presencia de la interacción enmascara el efecto de la 
temperatura. Por ello, s1 se considera el efecto medio de la temperatura, promediado para 
el tempo de secado, no existe efecto alguno. Entonces, esto define el efecto principal. 
Pero, por supuesto, es probable que esto no sea pertinente para el biólogo. 

Ántes de sacar cualquier conclusión final a partir de las pruebas de significancia 
sobre los efectos principales y los efectos de la interacción, el experimentador de- 
bería observar primero si la prueba para la interacción es o no significativa. Si la 


interacción no es significativa, entonces los resultados de las pruebas sobre los efectos 
prncipales son importantes. No obstante, sí la interacción debe ser significativa, en- 
tonces solamente son importantes aquellas pruebas sobre los efectos principales que 
resultan significativas. En presencia de una interacción, los efectos principales no sign1- 
ficativos bien podrían ser resultado de enmascaramiento e indicar la necesidad de obser- 
var la influencia de cada factor a niveles fijos del otro. 


Representación gráfica de la interacción 


La presencia de interacción, así como su impacto cientifico, se puede interpretar adecua- 
damente usando gráficas de interacción. Las gráficas proporcionan una clara imagen 
de la tendencia de los datos para mostrar el efecto que tiene el cambio de un factor 
conforme se pasa de un nivel a otro del segundo factor. La figura 14.1 ilustra la fuerte 
interacción entre la temperatura y el tiempo de secado. La interacción se revela en las 
líneas no paralelas. 


Porcentaje de sólidos 





1 2 3 
Temperatura 


Figura 14.1: Gráfica de la interacción para los datos de temperatura y de tiempo 
de secado. 


El efecto relativamente fuerte de la temperatura sobre el porcentaje de sólidos en 
el tiempo de secado más breve se refleja en la marcada pendiente de el. En el tiempo de 
secado medio, d,. la temperatura tiene muy poco efecto, mientras que en el tiempo 
de secado prolongado d, la pendiente negativa indica un efecto negativo de la tempe- 
ratura. Las gráficas de interacción como ésta le permiten al científico hacer una inter- 
pretación rápida y significativa de la interacción que existe. Debe ser evidente que el 
paralelismo en las gráficas indica la ausencia de interacción. 
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14.4. análisis de varianza de dos factores 





Al presentar las fórmulas generales para el análisis de varianza de un experimento de 2 
factores utilizando observaciones repetidas en un diseño completamente aleatorizado, 
debe considerarse el cazo de n réplicas de las combinaciones del tratamiento, determi- 
nadas por a niveles del factor A y b niveles del factor B. Las observaciones se podrian 
clasificar usando un arreglo rectangular, donde los renglones representan los niveles 
del factor A y las columnas representan los niveles del factor B. Cada combinación de 
tratamiento define una celda del arreglo. Ási, se tienen ab celdas, cada una de las cua- 
les contiene n observaciones. $e denota con y... la k-ésima observación tomada en el 
i-¿simo nivel del factor A y el ¡-¿simo nivel del factor 8. En la tabla 14.1 se muestran las 
abr observaciones. 


Tabla 14.1: Experimento de dos factores con a réplicas 


B 

AÁ 1 p, ... b Total Media 

1 1 Yi21 id Y161 Fr Yi. 
Y112 Y122 YIb2 
Yiin Yi2n Ylór 

2 Y211 Ya ... Y2b1 F5. Ya 
Y112 Yi2> Waba 
Yiln 22m VYibn 

dl Ya Ya2l Yabl Ya Ya 
Yal2 Vaz? VYabi 
Yala Yan VYabna 

Total F Y Y» F. 
| Media FL 2 ... Vo Y. 


definen los siguientes símbolos útiles, algunos de los cuales se utilizan en la tabla 14.1: 


E 


F' = suma de las observaciones para el -¿simo nivel del factor A, 


= suma de las observaciones en la (1)-ésima celda, 


A = suma de las observaciones para el f-¿simo nivel del factor E, 
F' = suma de todas las abn observaciones, 


5, = media de las observaciones en la (1/)-¿stma celda, 


Y, = media de las observaciones para el 1-ésimo nivel del factor A, 


. = media de las observaciones para el f-ésimo nivel del factor B, 


= An 


$ = media de todas las abn observaciones. 


A diferencia de la situación para un solo factor, que se cubrió con amplitud en el ca- 
pitulo 13, en éste supondremos que las poblaciones, de las que se toman n observaciones 
independientes con distribución idéntica, son combinaciones de los factores. Asimismo, 
se supondrá siempre que de cada combinación de factores se toma un número igual (1) 
de observaciones. En los casos en que los tamaños de las muestras por combinación son 
desiguales, los cálculos son más complicados, aunque los conceptos son transferibles. 
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Modelo e hipótesis para el problema de dos factores 
Cada observación de la tabla 14.1 se puede escribir en la siguiente forma: 


Fi = Hij + Ek: 


donde € Am mide las desviaciones de los valores y, observados en la (1/)-¿sima celda a par- 
tir de la media de la población A 51 (a), denota el efecto de la interacción del ¡-ésimo 
nivel del factor A y el ¡-«ésimo nivel del factor B, qx el efecto del i-ésimo nivel del factor 
Á, B, el efecto del ¡-¿simo nivel del factor 8, y u la media conjunta, escribimos 


ly =4+0; +8, +(08)j, 
y, entonces, 
Vik = +0, +8 + (08) + sx, 


a las que se imponen las restricciones 


er b a b 
Na=0 NA=0 iaa); =0  YaBr =0. 


i=1 j=1 j=1 j=1 


Las 3 hipótesis por probar son las siguientes: 
1. Hi: O] = O =--- =0, =D, 
H;¡: Al menos una de las dx, no es igual a 0. 


2 Ho A =B=--=PB=0, 


rr 


H,: Al menos una de las (3, no es igual a 0. 
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3. H¿: (08) =(08) ==> =(98).) =0, 
H,: Al menos una de las (09), no es igual a (). 

Se alerta al lector acerca del problema del enmascaramiento de los efectos principa- 
les cuando la interacción contribuye de manera importante en el modelo. Se recomienda 
considerar primero el resultado de la prueba de interacción y, luego, la interpretación de 
la prueba del efecto principal; la naturaleza de la conclusión científica depende de si se 
encontró interacción. 51 ésta se descarta, entonces se pueden probar las hipótesis | y 2 
y la interpretación es muy sencilla. 51m embargo, si se descubre que hay interacción, la 
interpretación puede ser más complicada, como se vio al analizar el tempo de secado 
y la temperatura en la sección previa. La estructura de las pruebas de hipótesis 1, 2 y 
3 se estudiará en las secciones siguientes. En el análisis del ejemplo 14.1 se incluirá la 
interpretación de los resultados. 

Las pruebas de las hipótesis anteriores se basarán en la comparación de estimados 
independientes de e**, obtenidos al separar la suma de cuadrados total de los datos en 4 
componentes mediante la siguiente identidad. 


Partición de la variabilidad en el caso de dos factores 


Teorema 14.1: Identidad de la suma de cuadrados 


a b on a b 
YY Y 3. =b0 Y Gi 3. +an Y y 3. Y 


i=l ¡=1 £=1 i=1 j=l 
a bh a bo on 
+n Y) Y) 06 Ji FJ 4.4349 9 9 0 du 
i=1 ¡=1 f=1 p=1 £=1 


5Simbólicamente, la identidad de la suma de cuadrados se escribe como 
SCT = SCA + 50B + SCIAB) + SCE 


donde a Í4CA y A4CB se les denomina la suma de cuadrados para los efectos principales Á 
y B, respectivamente, FC(AB) recibe el nombre de suma de cuadrados de la interacción 
para Á y B, y SCE es la suma de cuadrados del error. La partición de los grados de liber- 
tad se efectúa de acuerdo con la identidad 





abr — 1 = (a — 1) + (B- 1) + (a — 1Kb— 1) + abín — 1). 


Formación de los cuadrados medios 


51 dividimos cada una de las sumas de cuadrados en el lado derecho de la identidad de 
la suma de cuadrados entre su número correspondiente de grados de libertad, obtenemos 





los cuatro estadísticos 
s- SCA $2 SCB 3 SEAB) 02 SCE | 
3 a—1' S b—1" > la — Iib— 1)" abín — 1) 


Todos estos estimados de la varianza son estimados independientes de ("*, siempre que 
no haya efectos (Y, B, ni, por supuesto, (08), Si las sumas de cuadrados se interpretan 


Prueba F para 
el factor A 


Prueba F para 
el factor E 


Prueba F para 
la interacción 


como funciones de las variables aleatorias independientes y 
comprobar que 


1117 » NY ipas- 25 Y gs MO ES dificil 





SCA 
E(S7) = E (A|=* 


o _ |S5CB nao: 


dir 





ES 


ven pl] SCAB) ]_ 3 

ÓN al A ¡Loa 
comp] SCE ]_, 

E(S?) = E | = e, 


a partir de lo cual se observa de inmediato que los 4 estimados de €? son no sesgados 
cuando Hi» Hs y A, son verdaderas. 

Para probar la hipótesis H;,. de que los efectos de los factores A son todos iguales a 
cero, se calcula la siguiente razón: 


5 

fi = E? 
que es un valor de la variable aleatoria F, el cual tiene la distribución F con a — 1 y 
abín — 1) grados de libertad cuando H¿. es verdadera. La hipótesis nula se rechaza al 
nivel de significancia dy cuando f, > fala — 1, abín — 1)). 


De manera similar, para probar la hipótesis Ho, de que todos los efectos del factor E son 
iguales a cero, se calcula la razón: 


5 


h=>23 


que es un valor de la variable aleatoria F, que tiene la distribución F con b-— ly 
abín — 1) grados de libertad cuando H.,. es erdadera. Esta hipótesis se rechaza al nivel 
de significancia de cuando f2 > a[b—1, ab(n—1)). 


Por último, para probar la hipótesis Ho. , de que todos los efectos de interacción son 
Iguales a (0, se calcula la razón siguiente: 





La 
ali 


que es un valor de la variable aleatoria F, el cual tiene la distribución F con ( (a — 1) 


(b— 1) y abín — 1) grados de libertad cuando H¿. es verdadera. Concluimos que, a un 
nivel de significancia dx, hay interacción cuando f ¿[(a — 1Nb— 1),abín — 1)]. 


Como se indicó en la sección 14.2, se recomienda interpretar la prueba para la inte- 
racción antes de tratar de hacer inferencias sobre los efectos principales. 51 la interacción 
no es significativa, entonces hay evidencia de que las pruebas sobre los efectos principa- 
les son interpretables. El rechazo de la hipótesis | de la página 566 implica que las me- 


dias de la respuesta en los niveles del factor A difieren significativamente, mientras que 
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el rechazo de la hipótesis 2 implica una condición similar para las medias en los niveles 
del factor 8. 5ín embargo, una interacción signtficativa podría muy bien implicar que los 
datos se deberían analizar de una manera un poco diferente, quizá observando el efecto 
del factor A en niveles fijos del factor B, y asi sucesivamente. 

Los cálculos en un problema de análisis de varianza para un experimento de 2 fac- 
tores con an réplicas suelen resumirse como se ustra en la tabla 14.2. 


Tabla 14.2: Análisis de varianza para el experimento de 2 factores con n réplicas 
Fuente de Suma de Grados de Cuadrado f 
Efecto principal 
A SCA a—1 s5= fñ=>= 
B SCB b—1 si= $ f== 
Interacciones 
de 2 factores 

yr . af ? 7 SCIAB) £3 

AB SC(AB) (a hn 11h — I) $4 = la-IMb-1 fa = + 

¡or NT | S$CE 
Error ¿CE abín — 1) sg? = Hhia=5 
Total STC abn — 1 


14.5.Análisis gráfico en el problema de dos factores 


Muchos de los mismos tipos de ilustraciones gráficas que se sugirió emplear en los 
problemas de un factor también se aplican en el caso de 2 factores. Las gráficas en 
2 dimensiones de las medias de las celdas o de las medias de las combinaciones de 
tratamientos ofrecen información sobre la presencia de interacciones entre los 2 factores. 
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Además, una gráfica de los residuales contra los valores ajustados bien podría indicar 
si se cumple o no la suposición de la varianza homogénea. Por supuesto, es frecuente 
que una violación de la suposición de varianza homogénea implique un aumento en 
la varianza del error conforme los números de la respuesta se vuelven más grandes. 
Como resultado, esta gráfica podría resaltar la violación. 

La figura 14,3 presenta la gráfica de las medias de las celdas para el caso del pro- 
pulsor de los sistemas de misiles del ejemplo 14.1. Observe gráficamente (en este caso) 
cuánta falta de paralelismo hay. Note el aplanamiento de la parte de la figura que indica 
el efecto del propulsor para el sistema 3. Esto ilustra la interacción entre los factores. La 
figura 14.4 muestra la gráfica de los residuales contra los valores ajustados para los mis- 
mos datos. Al parecer no hay dificultades con la suposición de la varianza homogénea. 





Figura 14.3: Gráfica de las medias de las celdas para los datos del ejemplo 14.1. Los 
números representan los sistemas de misiles. 





Figura 14.4: Gráfica de los residuales de los datos del ejemplo 14.1. 
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14.6.Experimentos de tres factores 


En esta sección consideramos un expenmento con 3 factores, A, B y €, en los niveles a, 
b y e, respectivamente, en un diseño experimental completamente aleatorizado. Suponga 
de nuevo que se tienen » observaciones para cada una de las abe combinaciones de tra- 
tamientos. Debemos proceder a realizar las pruebas de significancia para los 3 efectos 
principales y las interacciones implicadas. $e espera que el lector podrá utilizar después 
esta descripción para generalizar el análisis a k> 3 factores. 


Modelo para el El modelo para el experimento de 3 factores es 
expenmento de 


tres factores Nil = PRO + Bj + Y + (08) HOY + (BY + (Yi + Est 
i¡=12...,.a] =1,2,...,5;k =1,2....,c3y/=1,2,....n, donde e, B y % 


El término (48y),, se denomina efecto de interacción de 3 factores, y representa la 
so aditividad de ls (09), sobre los difenentos niveles del factor C. leal que antes, 
la suma de todos los efectos principales es igual a 0, y la suma sobre cualesquiera de los 
subíndices de los efectos de la interacción entre 2 y 3 factores es igual a 0. En muchas 
situaciones experimentales estas interacciones de orden superior son insignificantes y 
sus cuadrados medios sólo reflejan variación aleatoria; pero se debe describir el análisis 
en su forma más general. 

Nuevamente, para realizar pruebas válidas de sigmbicancia debe suponerse que los 
errores son valores de variables aleatorias independientes y con distribución normal, 
cada una con media igual a 0 y varianza común (7. 

La filosofía general respecto al análisis es la misma que la que se estudió para los 
experimentos de 1 y 2 factores. La suma de cuadrados se divide en 3 términos, donde 
cada uno representa una fuente de variación de los que se obtienen estimados inde- 
pendientes de * cuando todos los efectos principales y de la interacción son Iguales 
a (0 51 los efectos de cualquier factor dado o interacción no son iguales a O, entonces 
el cuadrado medio estimará la varianza del error más un componente debido al efecto 
sistemático en cuestión. 


Suma de 


cuadrados para SCA =bcn "Y (9. —3..YP SC(AB)=cn Y Y Ji — FAY 
un experimento 1 rl 
de tres factores b 
SCB=acn Y (5, —5. Y SC(AC)=bm Y Y (iu —Fi Ta +5.) 
j=1 ik 


SCC=abn Y (Be —5 Y SO(BC)=am Y Y ja — Ts a + Y 
k Po E 


=1 
SC(ABC)=n Y Y Y e — Ji —Jie. —Ije Hdi + a — TY 
d j k 


srC=Y Y Y) Y a Y? SCE= Y Y Y Y Ou — Y 
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Aunque en esta sección hacemos éntasis en la interpretación de una salida de resul- 
tados por computadora con comentarios, en vez de preocuparnos por cálculos laboriosos 
de sumas de cuadrados, ofrecemos lo sigmente como la suma de cuadrados para los 3 
efectos principales y las interacciones. Observe la evidente extensión del problema de 2 
factores a uno de 3. 

Los promedios en las fórmulas se definen como sigue: 
-= promedio de todas las abcn observaciones, 
 = promedio de las observaciones para el ¡-ésimo nivel del factor A, 
 = promedio de las observaciones para el ¡-¿ésimo nivel del factor B, 
= promedio de las observaciones para el £-¿simo nivel del factor €, 
y, = promedio de las observaciones para el ¡-£simo nivel de Á y el f-ésimo nivel de B, 
= promedio de las observaciones para el ¡-ésimo nivel de A y el £-¿simo nivel de €, 
= promedio de las observaciones para el f-¿simo nivel de E y el £-¿simo nivel de €, 
a = promedio de las observaciones para la (¿)-¿sima combinación de tratamientos. 


el] el 


ñ 
P- 


rl 


qe 


Met] Mel 
rr. 


“ell % 
E 


“at 


Los cálculos en una tabla de análisis de varianza para un problema de 3 factores 
con a réplicas de corridas para cada combinación de factores se resumen en la tabla 14.7. 


Tabla 14.7: ANOVA para el experimento de 3 factores con n réplicas 


Fuentede.  Sumade  Gradosde Cuadrado f 
variación cuadrados libertad medio calculada 
Efecto principal: 

A SCA a—1 5 fi=> 

B SCB b—1 5 fa=2 

Cc SCC c—1 53 fa=35 


Interacción de 2 factores: 


AB SCIAB) la — 1)1(b— 1) 53 fa = > 
AC SC(AC) — (a—1Me—1) $ fs=% 
BC SCIBC) (b— 1Hec— 1) si fa = - 
Interacción de 3 factores: 
ABC SCIABC) (a—1IKb=IMe=1D 5 fi=% 
Error ¿CE abrein—1 ) si 
Total S£TC abcn— | 


Para el experimento de 3 factores con una sola corrida experimental por combina- 
ción se podría utilizar el análisis de la tabla 14.7 con n = 1 y usando la suma de cua- 
drados de la interacción ABC para 4CÉ. En este caso suponemos que los efectos de la 
interacción (ABN, son todos iguales a cero, de modo que 


| CT a be 
SC(ABC) a a 
E la-n6-nme-D)7 + a-D6-De-D 222 08D =0". 


i=1 ¡=1 k=1 


Es decir, SC(ABC) representa la variación que sólo se debe al error experimental. Por lo 
tanto, su cuadrado medio proporciona un estimado no sesgado de la varianza del error. 
Conan =1 y 5CÉE = SCIABC), la suma de cuadrados del error se obtiene restando la 
suma de cuadrados de los efectos principales y las interacciones de 2 factores a la suma 
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Agrupamiento en modelos multifactoriales 


El modelo de 3 factores y su análisis se describió de la manera más general mediante 
la inclusión en el modelo de todas las interacciones posibles. Por supuesto, hay muchas 
situaciones en las que a priori se sabe que el modelo no debería contener ciertas interac- 
ciones. Ási, es posible aprovechar este conocimiento al combinar o agrupar las sumas 
de cuadrados correspondientes a interacciones despreciables con la suma de cuadrados 
del error para formar un nuevo estimador de * con un número más grande de grados de 
libertad. Por ejemplo, en un experimento de metalurgia diseñado para estudiar el efecto 
de 3 variables importantes del proceso sobre el espesor de película, suponga que se sabe 
que el factor A, la concentración de ácido, no interactúa con los factores B y €. Las 


Tabla 14.11: ANOVA sin interacción del factor A 


Fuente de Sumade  Gradosde Cuadrado f 
variación cuadrados libertad medio calculada 

A SCA a—1 y fi=5 

B SCB b—1 si fa=5 

Cc SOC e—1 si fa=3% 
Interacción de 2 factores: 

BC SC(BC)  (b=IMe=1)  s] fi=3 
Error SCE Resta ge 
Total STC aben —1 


sumas de cuadrados SCA, S5CB, 50€ y SC(BC) se calculan usando los métodos descn- 
tos en un apartado anterior de esta sección. Todos los cuadrados medios de los efectos 
restantes ahora estimarán de manera independiente la varianza del error (7. Por lo tanto, 
formamos el nuevo cuadrado medio del error agrupando SAB) SAC), SCIABO) 
y $CE junto con los grados de libertad correspondientes. El denominador resultante de 
las pruebas de significancia es, entonces, el cuadrado medio del error dado por 


22 S3C(AB)+SC(ACI+SCIABCI+SCE ">> 
"A a—D6=D+(a— Ie D)+(a— M6 De — 1) 4 abeín — 1) * 


Por supuesto, con una resta se obtienen la suma de cuadrados agrupada y los grados de 
hibertad agrupados, una vez que se calcula la $TC y las sumas de cuadrados para los etec- 
tos existentes. La tabla del análisis de varianza adoptaria asi la forma de la tabla 14.11. 
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Experimentos factoriales en bloques 


En este capítulo se ha supuesto que el diseño experimental utilizado es un diseño comple- 
tamente aleatorizado. Al interpretar los niveles del factor A en la tabla 14.11 como blo- 
ques diferentes se tiene el procedimiento del análisis de varianza para un experimento 
de 2 factores en un diseño de bloques aleatorizados. Por ejemplo, si se interpretan los 
operadores del ejemplo 14.4 como bloques, y se supone que no hay interacción entre 
los bloques y los otros 2 factores, el análisis de vananza adopta la forma de la tabla 14.12, 
en vez de la de la tabla 14.9. El lector puede venificar que el cuadrado medio del error 
también es 


Ss. 477+ 2091 +49 +2161 074 
y _ = —————————— =U JA, 
4+2+4+36 


lo que demuestra el agrupamiento de las sumas de cuadrados para los efectos de la inte- 
racción inexistente. Observe que el factor 8, el catalizador, tiene un efecto significativo 
sobre el producto. 


Tabla 14.12: ANOVA para un expermento de 2 factores en un diseño de bloques aleatorizados 


Fuente de suma de — Gradosde Cuadrado f 
variación cuadrados libertad medio calculada — ValorP 
Bloques 13.98 2 6.99 
Efecto principal: 
BE 10.18 2 5.09 0.88 0.0024 
C 1.18 l 1.13 1.59 0.2130 
Interacción de 2 factores 
BC 3.64 2 1.82 2.46 0.0966 
Error 4.21 46 0.74 


Total 63.19 53 
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14.7.Experimentos factoriales Il y HI 
En un experimento de 2 factores con efectos aleatorios se tiene el modelo 
Yi =p +A; +8, + (AB) + Est.» 


paraií=1,2...,.aj=1,2,...,b;yk=1,2...., n, donde A, B (AB), Y €, son variables 
aleatorias independientes con medias igual a ( y varianzas 07, 07, 07, y 07, respecti- 
vamente. Las sumas de cuadrados para experimentos de efectos aleatorios se calculan 


exactamente de la misma forma que en los experimentos de efectos fijos. Ahora se tiene 
interés en probar hipótesis con la forma 
Hy0i=0, Hy:03=0  H,:0l¿=0, 
0,0 H,:03%0 H,:053%0, 
donde el denominador en la razón fno es necesariamente el cuadrado medio del error. El 


denominador apropiado se determina examinando los valores esperados de los distintos 
cuadrados medios, los cuales se presentan en la tabla 14.14. 


Tabla 14.14: Cuadrados medios esperados para un experimento de efectos aleatorios de 2 factores 
Fuente de Grados de Cuadrado Cuadrado medio 


variación libertad medio esperado 

A a—l 5i o +20, 7 + bn 
B b— 1 55 a? + na + anar 
AB (a — 1Mb— 1) 55 O” +10 ,3 

Error abín — 1) si a? 

Total abn — 1 


En la tabla 14.14 se observa que H, y Ho se prueban usando s; en el denominador 
de la razón f, mientras que Ho se prueba con s* en el desiidar. Los estimados no 
sesgados de los componentes de la varianza son 


2 2 2 2 - 
Fis ga == =* ga =M% a” 7% 
| of n e bn * an 











Tabla 14.15: Cuadrados medios esperados para un expenmento de efectos aleatorios de 3 factores 


Fuente de Grados de Cuadrado Cuadrado medio 

variación libertad medio esperado 
A a—l 57 a? + NT + en - bna + benaz 
B b—1 55 O +3, CNO, ¿tano + amo; 
Cc e=1 Le O +03, +bnO,, + an 07, +abna; 
AB (a — 1Mb— 1) ñ O +03, HENO y 
AC (a — 1Me—1) 55 a? + naa + bn6 
BC (b— MMe— 1) só O +03, HOMO, 
ABC (a — 1Mb— 1Mc— 1) y d+naa,, 
Error abeín — 1) si a? 
Total abcn — 1 


En la tabla 14.15 se presentan los cuadrados medios esperados para el experimento 
de 3 factores con efectos aleatorios en un diseño completamente aleatorizado. Á partir de 
los cuadrados medios esperados de la tabla 14.15 es evidente que se pueden formar 
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razones fadecuadas para probar todos los componentes de la varianza de la interacción 
de 2 y 3 factores. 51n embargo, para probar una hipótesis de la forma 


Hi: a = 0, 


Hi: 040, 


parece que no hay razón f apropiada, a menos que se encontrara que uno o más de los 
componentes de la varianza de interacción de 2 factores no es significativo. Por ejemplo, 
suponga que se hubiera comparado s¿ (cuadrado medio AC) con s; (cuadrado medio 
ABC) y se encontrara que ¿pel es despreciable. Entonces podría argumentarse que el 
término (7. debería eliminarse de todos los cuadrados medios esperados de la tabla 
14.15; entonces, la razón ss; ofrece una prueba de la significancia del componente 0* 
de la varianza. Por lo tanto, 51 se prueba la hipótesis concermente a los componentes de 
la varianza de los efectos principales, es necesario investigar primero la significancia 
de los componentes de la interacción de 2 factores. Cuando se encuentra que ciertos 
componentes de la varianza de la interacción de 2 factores son significativos, por lo 
que deben permanecer como parte del cuadrado medio esperado, se utiliza una prueba 
aproximada derivada por Satterthwaite (1946; véase la bibliografía) . 


14.8.Posibles riesgos y errores conceptuales; relación con el material de otros capítulos 


Uno de los temas más susceptibles de confusión en el análisis de experimentos factorla- 
les radica en la interpretación de los efectos principales ante la presencia de interacción. 
La existencia de un valor P relativamente grande para un efecto principal, cuando es 
clara la presencia de interacciones, podría tentar al analista a concluir que “no existe 
efecto principal significativo”. Sin embargo, debe entenderse que si un efecto principal 
está implicado en una interacción significativa, entonces el efecto principal está influ- 
yendo en la respuesta. La naturaleza del efecto es inconsistente a través de los niveles 
de otros efectos. La naturaleza del papel que desempeña el efecto principal se deduce de 

Debido a lo que se expresa en el párrafo anterior, hay un gran peligro de usar la es- 
tadística de manera equivocada cuando se emplea una prueba de comparación múltiple 
sobre los efectos principales ante la presencia clara de interacción entre los factores. 

Debe tenerse precaución en el análisis de un experimento factorial cuando se supone 
un diseño completamente aleatorizado y en realidad no se hizo tal aleatorización. Por 
ejemplo, es común que se encuentren factores que son muy difíciles de cambiar. Como 
resultado, podría ser necesario mantener sin cambio los niveles de factores durante lar- 
gos penodos a lo largo de todo el experimento. El ejemplo más común es el factor 
temperatura. Subirla o bajarla en un esquema aleatorio es un plan costoso y la mayoria 
de los experimentadores evitarán hacerlo. Los diseños experimentales con restricciones 
en la aleatorización son muy comunes y reciben el nombre de diseños de gráficas se- 
paradas. Esos diseños rebasan el alcance de este libro, pero en Montgomery (20084) se 
encuentra su presentación. 

Muchos de los conceptos que se analizaron en este capitulo se utilizarán en el ca- 
pitulo 15, por ejemplo, la importancia de la aleatorización y el papel que desempeña 
la interacción en la interpretación de los resultados. Sin embargo, en el capítulo 15 
se cubren 2 áreas que representan una expansión de los principios que se estudiaron en 
este capitulo y en el capitulo 13. En el capitulo 15 la solución de problemas con el uso 
de experimentos factoriales se realiza por medio del análisis de regresión, ya que se 
supone que la mayoría de los factores son cuantitativos y que se miden en un continuo, 
como la temperatura y el tiempo. Se derivan ecuaciones de predicción a partir de los 
datos del experimento diseñado y se utilizan para la mejora de procesos o incluso para su 
optimización. Además, se estudia el tema de los factoriales fraccionanos, en los que sólo 
una parte o fracción de todo el experimento factorial se aplica debido al costo excesivo 
que implica la realización de todo el experimento. 
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15. EXPERIMENTOS 2 FACTORIALES Y FRACCIONES 
15.2.Introducción 


Ya se han expuesto ciertos conceptos del diseño experimental. El plan de muestreo para 
la prueba í simple sobre la media de una población normal y el análisis de varianza 
implican la asignación aleatoria de los tratamientos preseleccionados a las unidades ex- 
perimentales. El diseño de bloques aleatorizados, en el que los tratamientos se asignan 
a las unidades dentro de bloques relativamente homogéneos implica una aleatorización 
restringida. 

En este capítulo se presta atención especial a los diseños experimentales en los 
que el plan experimental requiere estudiar el efecto sobre una respuesta de k factores, 
cada uno en dos niveles. A éstos se les conoce como experimentos factoriales 2*. Es 
frecuente que los niveles se denoten por “alto” y “bajo”, aunque esa notación podría ser 
arbitraria en el caso de variables cualitativas. El diseño factorial completo requiere que 
cada nivel de cada factor ocurra con cada ld de cada uno de los demás factores, lo 
que da un total de 2* combinaciones de tratamientos 





15.3.Análisis de varianza 


Considere inicialmente un factorial 2* con factores A y B, y n observaciones experi: 
mentales por combinación de factores. Es útil emplear los símbolos (1), a, b y ab para 
denotar los puntos del diseño, donde la presencia de una letra minúscula implica que el 
factor (A o B) está en el nivel alto. Asi, la ausencia de la minúscula implica que el factor 
está en el nivel bajo. Por lo que ab es el punto de diseño (+, +), aes (+, —), bes (—. +) 
y (1) es (—, —). Asimismo existen situaciones en las que la notación también se aplica 


Cálculo de los 
efectos 
prncipales 


23] 


para los datos de respuesta en el punto de diseño en cuestión. Como introducción al 
cálculo de efectos importantes que ayuden a determinar la influencia de los factores y 
sumas de cuadrados que están incorporados en los cálculos del análisis de varianza se 
presenta la tabla 15.1. 


Tabla 15.1: Un experimento factorial 2* 
A Media 





b ab o 
B <N 

(1) a aa 
sd (11+b aja | 











En esta tabla, (1), a, b y ab representan totales de los n valores de la respuesta en los 
puntos de diseño individuales. La simplicidad del factorial 2* reside en el hecho de que, 
aparte del error experimental, el analista obtiene la información importante en compo- 
nentes con un solo grado de libertad, uno para cada uno de los dos efectos principales 


A y B, y un grado de libertad para la interacción AB. La información que se recupera 


sobre todos estos aspectos adopta la forma de tres contrastes. 5e definirán los siguientes 
contrastes entre los totales de los tratamientos: 


contraste A = ab+a—b-— (1), 
contraste B = ab—a+b-— (1) 
contraste AB =ab—a—b+(1) 


Los tres efectos del experimento implican estos contrastes y apelan al sentido común y 
a la intuición. Los dos efectos principales calculados tienen la forma 


efecto = Yy — YL, 


donde Py y Y, son las respuestas promedio en el nivel alto o “+” y en el nivel bajo o *—”, 
respectivamente. Como resultado, 


ab+a—b—(1) contraste A 


A 
1 2n 


ab—=a+b-—(1) contraste B- 


B =- 
2n 2n 


La cantidad A es considerada la diferencia entre la respuesta media en los niveles 
alto y bajo del factor A. De hecho, A se denomina efecto principal del factor A. En 
forma similar, B es el efecto principal del factor B. Al inspeccionar la diferencia entre 
ab — by a— (1) 0 entre ab — a y b— (l) en la tabla 15.1, se observa una aparente inte- 
racción en los datos. 51, por ejemplo, 


ab—a == b-— (1) o bien ab—a—b+4(1)j= 0, 
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Los números en las celdas de las tablas 15.2 y 15,3 ustran con claridad la manera 
en que los contrastes y el cálculo resultante de los dos efectos principales y de las con- 
clusiones resultantes pueden estar muy influidos por la presencia de interacción. En la 
tabla 15.2 el efecto de A es —30 tanto en el nivel bajo como en el nivel alto del factor 
B, y el efecto de 8 es 20 en los niveles bajo y alto del factor A. Esta “consistencia del 
efecto” (no hay interacción) puede ser información muy importante para el analista. 
Los efectos principales son 
710+50 — 100+80 

y 2 
100+70 0450 
2 2 


= 60 — 90 = —-30, 





B= = 85 — 65 = 20, 


mientras que el efecto de la interacción es 


_100+50 80+70 


AB = =75-—75=0 
2 2 





Por otro lado, en la tabla 15.3 el efecto A es nuevamente —30 al nivel bajo de B, pero +30 
al nivel alto de E. Esta “inconsistencia del efecto” (interacción) también está presente 
para E en todos los niveles de A. En estos casos los efectos principales podrían carecer 
de significado y, de hecho, prestarse mucho a la confusión. Por ejemplo, el efecto de A es 


50+70  —50+40 


A = 
2 2 


=0 








ya que hay un “enmascaramiento” completo del efecto conforme se promedia sobre los 

niveles de B. La fuerte interacción se ilustra con el efecto calculado 

710480 50440 _ 
2 - 


AB = 30. 








Aquí es conveniente ilustrar los escenarios de las tablas 15.2 y 15.3 con las gráficas de 
interacción. Observe el paralelismo en la gráfica de la figura 15.2 y la interacción apa- 





rente en la figura 15.3, J 
100 
30 
go 
So 
¿zo 
50 
| 1 
A A 
Figura 15.2: Gráfica de interacción para los Figura 15.3: Gráfica de interacción para los 


datos de la tabla 15.2. datos de la tabla 15.3. 
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15.4.Experimento 2 K factorial sin replicas 


El factorial completo 2* con frecuencia requiere mucha experimentación, en particular 
cuando k es grande. Como resultado, a menudo no es posible replicar cada combinación 
de factores. 51 en el modelo del experimento se incluyen todos los efectos, con todas las 
interacciones, no se permite ningún grado de libertad para el error. A menudo, cuando £ 
es grande, el analista de datos agrupará las sumas de los cuadrados y los grados de liber- 
tad correspondientes para las interacciones de orden superior que se sabe, o se supone, 
son despreciables. Esto producirá pruebas F para los efectos principales e interacciones 
de orden inferior. 


Graficación de diagnóstico con experimentos factoriales 2* sin réplicas 


Las gráficas de probabilidad normal constituyen una metodología muy útil para deter- 
minar la importancia relativa de los efectos en un experimento con factores de dos nive- 
les razonablemente grandes cuando no hay réplica. Este tipo de gráfica de diagnóstico 
puede ser útil sobre todo cuando el analista de datos duda en agrupar interacciones de 
orden superior por temor de agrupar en el “error” algunos efectos verdaderamente reales 
y no sólo aleatorios. El lector debe recordar que todos los efectos que no son reales, es 
decir, que son estimados de cero independientes, siguen una distribución normal con 
media cercana a cero y varianza constante. Por ejemplo, en un experimento factorial 2* 


se debe recordar que todos los efectos, teniendo en cuenta que 1 = 1, son de la forma 
| contraste 
AB= —_— = VH —Y + 


Gráficas 

de efectos 

de probabilidad 
para experimentos 
factoriales 2* sin 
réplica 
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donde Yw es el promedio de ocho corridas expenmentales independientes en el nivel alto, 
o0*+", y Y es el promedio de ocho corridas independientes en el nivel bajo, o “—”. Ási, 
la varianza de cada contraste es Var(Vw — $) = 074. Para cualesquiera efectos reales 
Ela — 4.) 40. Ást, la gráfica de probabilidad normal debería revelar efectos “signi- 
ficativos” como aquellos que caen fuera de la línea recta que describe realizaciones de 
variables aleatorias normales independientes distribuidas de forma idéntica. 

La gráfica de probabilidad puede adoptar una de muchas formas. 5e recomienda al 
lector que consulte el capítulo 4, en el que se presentaron dichas gráficas por primera 
vez. 5e puede usar la gráfica cuantil-cuantil, normal y empírica. También es posible 
utilizar el procedimiento de graficación que emplea el papel de probabilidad normal. 
Además, existen otros tipos de gráficas de probabilidad normal para el diagnóstico. 
En resumen, las gráficas de efectos para el diagnóstico son como sIgue. 


1. Calcular los efectos como 


efecto = 71 


2. Construir una gráfica de probabilidad normal de todos los efectos. 
3. Los efectos que calgan fuera de la línea recta deben considerarse reales. 


Á continuación se hacen más comentarios respecto de las gráficas de probabilidad 
normal de los efectos. En primer lugar, el analista podría sentirse frustrado si utiliza las 
gráficas con un experimento pequeño. Por otro lado, la graficación puede proporcionar 
resultados satisfactorios cuando hay dispersión de efectos, muchos efectos que no son 
verdaderamente reales. Esta dispersión será evidente en experimentos grandes, en los 
que es poco probable que las interacciones de orden superior sean reales. 





Estudio de caso 15.1: 


Moldeado por inyección. Muchas empresas fabricantes de Estados Unidos y otros paí- 
ses utilizan partes moldeadas como componentes de un proceso. Un problema grande 
que enfrentan con frecuencia es el rebasamiento. Á menudo, un molde troquelado de una 
parte se construye con un tamaño más grande que el nominal para permitir que se con- 
traiga. En la siguiente situación experimental se produce un molde nuevo para el cual es 
importante encontrar las especificaciones adecuadas del proceso para minimizar la con- 
tracción. En el siguiente experimento los valores de la respuesta son desviaciones de los 
nominales, es decir, contracciones. Los factores y niveles son los siguientes: 
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Niveles codificados 
M7 +1 
A. Velocidad de inyección (pies/seg) 1.0 2.0 
B. Temperatura de moldeado ('C) 100 150 
C. Presión de moldeado (psi) 500 1000 
D. Contrapresión (psi) 75 120 


El propósito del experimento fue determinar cuáles efectos (principales y de inte- 
racción) influyen en la contracción. El experimento se consideró un filtrado preliminar a 
partir del cual se determinaron los factores para un análisis más completo. Asimismo, se 
espera obtener información respecto a cómo los factores importantes repercuten en la con- 
tracción. En la tabla 15.6 se presentan los datos de un experimento factorial 2* sin réplica. 


Tabla 15.6: Datos para el estudio de caso 15.1 


Combinación Respuesta — Combinación Respuesta 
de factores (cm x 10%) — defactores (cm x 10%) 
(1) 72.68 d 73.52 
a 71.74 ad 75.97 
b 76.09 bd 74.28 
ab 93.19 abd 92.87 
C 71.25 cd 79.34 
ac 70.59 acd 75.12 
be 70.92 bcd 79.67 
abc 104.96 abecd 97.80 


Inicialmente se calcularon los efectos y se plasmaron en una gráfica de probabilidad 
normal. Los efectos calculados son los siguientes: 


A = 105613, ED = -—2.2787, B =124463, 

C = 2.4138, D =2.1438, AB = 114038, 
AC =1.2613, AD =-—1.8238, BC = 1.8163, 

CD = 1.4088, ABC = 2.8588, ABD =-—1.7813, 

ACD =-—3.0438, BCD =-—0.4788, ABCD <= —1.3063. 


En la figura 15.5 se observa la gráfica cuantl-cuantil normal, la cual parece implicar que 
los efectos A, By AB son importantes. Los signos de los efectos importantes indican las 
conclusiones preliminares. 
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Figura 15.5: Gráfica cuantil-cuantil normal de los efectos para el estudio 
de caso del ejemplo 15.1. 


1. Un incremento en la velocidad de inyección de 1.0 a 2.0 aumenta la contracción. 

2. Un aumento en la temperatura de moldeado de 100€ a 150€ incrementa la con- 

3, Hay una interacción entre la velocidad de inyección y la temperatura del moldea- 
do; aunque ambos efectos principales son importantes es crucial entender el efecto 
de la interacción de los dos factores. y 
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Interpretación de la interacción de dos factores 


Como se esperaría, una tabla de medias de dos factores facilita la interpretación de la 
interacción AB. Considere la situación de dos factores de la tabla 15.7. 


Tabla 15.7: Ilustración de una interacción de dos factores 


B (temperatura) 
A(velocidad) 100 150 
2 73.355 97.205 
1 74.1975 75.240 


Observe que la media muestral grande a velocidad y temperatura elevadas creó la 
interacción significativa. La contracción se incrementa en forma no aditiva. La tem- 
peratura del moldeado parece tener un efecto positivo a pesar del nivel de velocidad. S1n 
embargo, el efecto es el mayor a velocidad elevada. El efecto de la velocidad es muy 
ligero a temperaturas bajas, pero es claramente positivo a una temperatura elevada de 
moldeado. Para controlar la contracción a bajo nivel debería evitarse el uso simultáneo 
de una alta velocidad de inyección y una temperatura de moldeado elevada. Todos estos 
resultados se dustran en forma gráfica en la figura 15.6. 


100 


Contracción 
00 
On 


75 


70 





Temperatura 


Figura 15.6: Gráfica de la interacción para el estudio de caso 15.1. 
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15.5.Experimentos factoriales de bloque sincompletos 


Hasta ahora hemos limitado el análisis de los datos para un factorial 2* al método del 
análisis de varianza. La única referencia a un análisis alternativo se hizo en el ejercicio 
15.9 de la página 611. De hecho, este ejercicio introduce gran parte del material que 
da origen a la presente sección. Hay situaciones en las que el ajuste de un modelo es 
importante y en la que es posible controlar los factores que se estudian. Por ejemplo, 
un biólogo podría querer estudiar el crecimiento de cierto tipo de alga en el agua, en 
cuyo caso sería muy útil un modelo que relacionara las unidades de algas como una 
función de la cantidad de cierto contaminante, y, digamos, del tiempo. Asi, el estudio 
involucra un expermento factorial en un ambiente de laboratorio en el que los factores 
son la concentración del contaminante y el tiempo. Como se verá más adelante en esta 
sección, es posible ajustar un modelo más preciso sí los factores están controlados en 
un arreglo factorial, para el que con frecuencia es útil elegir un factorial 2* En muchos 
procesos brológicos y químicos los niveles de las variables regresoras pueden y deberían 
controlarse. 

Hay que recordar que el modelo de regresión empleado en el capitulo 12 se puede 
escribir con notación de matriz de la siguiente manera 


y=X0+e€. 
La matriz X se denomina matriz del modelo. Suponga, por ejemplo, que se utiliza un 
experimento factorial 2* con las variables 


Temperatura: 150€ 200 E 
Humedad: 155% 2015 
Presión (psik — 1000 1500 


Los niveles familiares +1 y —1 se generan a través del siguiente centrado y escalado 
a unidades de diseño: 


temperatura — 175 humedad — 17,5 presión — 1250 
A =É= ————————— 2 AAA 3 SE A AAAAAARARKÁA, 
25 es 2,5 ] 250 
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Como resultado, la matriz X se vuelve 


Xi Xa Xx Identificación del diseño 
=1l —1 —] (1) 

lt —i —] a 
| il —] b 


1 

1 

1 
X- l —I —]1 l c 

1 

1 

1 

1 


! il —] ab 

lt —] l ac 
—] | | be 

| | l abc 


Ahora se observa que los contrastes ilustrados y analizados en la sección 15.2 están 
relacionados directamente con los coeficientes de regresión. Observe que todas las co- 
lumnas de la matriz X en el ejemplo 2* son ortogonales. Como resultado, el cálculo de 
los coeficientes de regresión que se describió en la sección 12.3 se convierte en 


by 
b; 
b, 
bx 

a+abw+ac + abe+(1)+ b+c+ be 
lla+ab+ac + abe— (1) —b—=c— be 
8 lb+ab+be + abe— (1) —a—e —acl' 

c+ ac + be + abe— (1) — a— b —ab 


b= =(X'X) Xy = (51) 1 


donde a, ab, etc., son medidas de la respuesta. 

Ahora se observa que el concepto de principales efectos calculados que se enfatiza 
a lo largo de todo este capítulo con diseños factoriales 2*, se relaciona con los coeficien- 
tes de un modelo de regresión ajustado cuando los factores son cuantitativos. De hecho, 
para un 2* con, digamos, n corridas experimentales por punto del diseño, las relaciones 
entre los efectos y los coeficientes de regresión son como sigue: 


| contraste 
Efecto = Em 
contraste efecto 
Coeficiente de regresión = —_— = — 
, (nm) 2 
Esta relación debería tener sentido para el lector, ya que un coeficiente de regresión 
b, es una tasa promedio del cambio en la respuesta por cambio de unidad en x Por 5u- 
puesto, cuando se va de —l a+1 en x, (de bajo a alto), la variable de diseño cambia en 
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15.6.Diseño ortogonal 


En situaciones experimentales en las que es apropiado ajustar modelos que son linea- 
les en las variables de diseño y que posiblemente impliquen interacciones o términos 
de producto, el diseño ortogonal de dos niveles, o arreglo ortogonal, plantea algunas 
ventajas. Por diseño ortogonal nos referimos a uno en el que hay ortogonalidad entre 
las columnas de la matriz X. Considere la matriz X para el factorial 2* del ejemplo 15.2. 
Observe que las tres columnas son mutuamente ortogonales. La matriz X del factorial 
2" también contiene columnas ortogonales. El factorial 2* con interacciones produciría 
una matriz X del tipo 
X1 A X3 Xy Xi. XX 11 M5 M3 
1 —1 -—l l l l =l 
io — -—1 1-1 l l 
—1 il —1 -—1 1 —l l 
1 lo —1 -—] l 
l il —1 1 —1 —1 1] 
il —l 1 —I] 1 —l —] 
—1 | 1 —1 —1 l —] 
l | 1 l l l l 


fuma jua pda nda uma uma fuma ju 
| 
PP 
LA 


La descripción de los grados de libertad es 


Fuente gl. 
Regresión 3 
Falta de ajuste 4 (xx,xX,XX,x Xxx) 
Error (puro) 5 
Total 15 


Los ocho grados de libertad para el error puro se obtienen a partir de las corridas du- 
plicadas en punto del diseño. Los grados de libertad de la falta de ajuste podrían 
considerarse como la diferencia entre el número de puntos de diseño distintos y el nú- 
mero total de términos en el modelo; en este caso hay ocho puntos y cuatro términos en 
el modelo. 

Error estándar de los coeficientes y pruebas T 


En las secciones anteriores vimos cómo el diseñador de un experimento puede aprove- 
char el concepto de ortogonalidad para diseñar un experimento de regresión con coefi- 
cientes que obtienen una varianza mínima sobre la base del costo. Debemos ser capaces 
de utilizar el material sobre la regresión que se expuso en la sección 12.4 para calcular 
estimados de las varianzas de los coeficientes y, con ello, los errores estándar. También 
resulta de interés observar la relación entre el estadístico £ de un coeficiente y el estadis- 
tico F desento e ilustrado en capitulos anteriores. 

En la sección 12.4 vimos que las varianzas y las covarianzas de los coeficientes 
aparecen en A7!, o, en términos de la notación actual, la matriz de varianza-covarianza 
de coeficientes es 


er”, =l= OXAxX Xy i 
En el caso del experimento factorial 2* las columnas de A son mutuamente ortogonales, 
lo que impone una estructura muy especial. En general, para 2* se puede escribir 
X] Xa  ..* Xi X y Xa 
X=[l +1 +1 o +1 +1 +1 


donde cada columna contiene 2% 0 2% entradas, donde n es el número de réplicas de las 
corridas en cada punto del diseño. Así, la formación de X*X lleva a 


xX'X = 2a1,, 
donde l es la matriz de identidad de la dimensión p, el número de parámetros del modelo. 
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Una mirada más cercana a la propiedad de ortogonalidad del factorial 2* 


Ya vimos que para el caso del factorial 2* toda la información que obtiene el analista 
sobre los efectos y las interacciones principales aparece en forma de contrastes. Estas 
“2 — 1 piezas de información” conllevan un solo grado de libertad cada una y son in- 
dependientes entre sí. En un análisis de varianza se manifiestan como efectos; mientras 
que si se construye un modelo de regresión, los efectos que resultan son coeficientes de 
regresión, aparte de un factor de 2. Con cada forma de análisis es posible hacer pruebas 
de significancia y la prueba í para un efecto dado es la misma en términos numéricos que 
para el coeficiente de regresión correspondiente. En el caso del ANOVA son importantes 
la selección de las variables y la interpretación científica de las interacciones; en tanto que 
en el caso de un análisis de regresión se usa un modelo para predecir la respuesta y/o de- 
terminar cuáles combinaciones de factores o niveles son las óptimas, por ejemplo, maxi- 
mizar la producción o la eficiencia de la punificación, como en el estudio de caso 15.2, 

Resulta que la propiedad de ortogonalidad es importante, ya sea que se trate de un 
ANOVA o de una regresión. La ortogonalidad entre las columnas de AX, la matriz del mo- 
delo en, digamos, el ejemplo 15.3, ofrece condiciones especiales que tienen un impacto 
importante sobre los efectos de la varianza o los coeficientes de regresión. De hecho, 
va es evidente que el diseño ortogonal da como resultado la igualdad de varianza para 
todos los efectos o coeficientes. Es asi como, para propósitos de estimación o de prueba, 
la precisión es la misma para todos los coeficientes, los efectos principales o las interac- 
ciones. Además, si el modelo de regresión sólo contiene términos lineales, por lo cual 
sólo los efectos principales son de interés, las condiciones siguientes dan como resultado 
la minimización de las varianzas de todos los efectos, o, en forma correspondiente, de 
los coeficientes de regresión de primer orden. 


Condiciones para $51 el modelo de regresión contiene términos no mayores de primer orden, y sí los rangos 

vananzas de las variables son dados por x € [-1, +1] para ¿ = 1, 2...., k, entonces Var(b)/07, 

minimas de los para = 1, 2...., k, se minimiza sí el diseño es ortogonal y todos los niveles x, del diseño 
coeficientes son +1 paraí=1,2,...,k 







































































Asi, en términos de los coeficientes del modelo o los efectos principales, la ortogonal1- 
dad en el 2* es una propiedad muy deseable. 

Otro método para lograr una mejor comprensión del “balance” proporcionado por el 
factorial 2* consiste en observar la situación mediante una gráfica. En la figura 15.10 se 
aprecia cada uno de los contrastes ortogonales y, por lo tanto, mutuamente independien- 
tes. En las gráficas se comparan los planos de los cuadrados cuyos vértices contienen 
las respuestas etiquetadas con “+” con las que tienen el signo “—”. Las que aparecen 
en el inciso a presentan contrastes para efectos principales y deberían ser evidentes para 
el lector. Las del inciso $ presentan los planos determinados por los vértices 4" y *—" 
para los tres contrastes de interacción de dos factores. En el inciso e se aprecia la repre- 
sentación geométrica de los contrastes para la interacción de tres factores (ABC). 


Corridas centrales con diseños factoriales 2* 
En la situación en que se aplica el diseño 2* con variables continuas de diseño y se 
busca ajustar un modelo de regresión lineal, el uso de réplicas de corridas en el diseño 
central puede ser sumamente útil. De hecho, además de las ventajas que se analizarán 
a continuación, la mayoría de los científicos e ingenieros considerarian que las corridas 





(a) Efectos principales 


























Ó  =-— comidas 





(c) Interacción de tres factores 


Figura 15.10: Presentación geométrica de los contrastes para el diseño factorial 27. 


centrales, es decir, las corridas en x, = U para i = 1, 2,..., k, no sólo son una práctica 
razonable sino que además son interesantes. En muchas áreas de aplicación del diseño 
2* el científico desea determinar 51 sería benéfico pasar a otra región de interés en los 
factores. En muchos casos el centro, es decir, el punto (0, 0...., 0) en los factores codifi- 
cados, con frecuencia representa las condiciones de operación actuales del proceso, o al 
menos aquellas condiciones que se consideran “óptimas para el momento”. Por lo tanto, 
a menudo el cientifico requerirá datos sobre la respuesta central. 


15.7.Experimentos factoriales fraccionados 
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El experimento factorial 2' se puede volver muy demandante, en términos del número de 
unidades experimentales requeridas, el valor de kes grande. Una de las ventajas 
reales de este plan experimental es que permite un grado de libertad para cada interac- 
ción. 5n embargo, en muchas situaciones experimentales se sabe que ciertas interaccio- 
nes son despreciables, por lo que seria un desperdicio de esfuerzo experimental utilizar 
el expermento factorial completo. De hecho, el experimentador podría tener limitacio- 
nes económicas que le impidan hacer observaciones de todas las combinaciones 2* de 
tratamientos. Cuando £k es grande, a menudo se puede usar un experimento factorial 


fraccionario donde quizás sea posible llevar a cabo la mitad, un cuarto o incluso un 
octavo del plan factorial total. 


Construcción de la fracción de 5 


La construcción del diseño de media réplica es idéntica a la asignación del experimento 
factorial 2* en dos bloques. $e comienza por seleccionar un contraste de definición que 
se sacrificará por completo. Luego se construyen los dos bloques en concordancia y se 
elige cualquiera de ellos como plan experimental. 

A menudo la fracción de 5 de un factorial 2* se conoce como diseño 2*-*, el cual 
indica el número de puntos de diseño. El primer ejemplo de un diseño 2*-* será uno de 
5 0 uno de 2* o uno de 2*7!. En otras palabras, el científico o el ingeniero no puede usar 
el complemento completo, es decir, todo el diseño 2* con 8 puntos de diseño, por lo que 
debe apelar a un diseño sólo cuatro puntos de diseño. La pregunta es la siguiente: de 
los puntos de diseño (1), a, $, ab, ac, €, be y abe, ¿cuáles son los cuatro puntos de diseño 
que producirán el diseño más útil? La respuesta, junto con los conceptos importantes re- 
lacionados, aparece en la tabla de signos + y — que muestra los contrastes para el diseño 
2 completo. Considere la tabla 15.9. 


Tabla 15.9: Contrastes para los siete efectos disponibles en el caso de un experimento factorial 2* 


Combinación Efectos 
de tratamientos 1] A BC AB AC BC ABC 

21 a + + -= — = - + + 
h + = + => -= +  —- - 

C + = == + + -= - o + 

abe to + + + + + + - 

3% ab + + + = +4 -—  - - 
ac + + = + -= +  - - 

be + = + + -= - + - 

(1) too o -—- + + +  — 
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Términos del modelo de regresión 3 
Intersección ad 

4 
Un análisis más detallado sugiere que los siete efectos no son ortogonales y que cada 
contraste está representado en otro efecto. De hecho, s1 se emplea el símbolo = para 
denotar contrastes idénticos, se tiene que 


A =BC; B=AC; C=AB. 


Como resultado, dentro de un par no es posible estimar un efecto independiente de su 
“socio” alias. Los efectos 


4 HEM Ñ pco= HEM: 


producirán el mismo resultado numérico, de manera que contienen la misma informa- 
ción. De hecho, con frecuencia se que comparten un grado de libertad. En reali- 
dad, el efecto estimado verdaderamente estima la suma, es decir, A + BC. Se dice que A 
Y EC son alias, al igual que E y AC, y que Cy AB. 

Para la fracción ABC = —f se observa que los alias son los mismos que para la frac- 
ción ABC = f, además del signo. Ási, se tiene 


A <= —KC:; B=-—AC; C= —AB. 


Las dos fracciones aparecen en las esquinas de los cubos de las figuras 15.15a y 
15.155. 





(a) La fracción ABC = 1 (a) La fracción ABC = -—1 


Figura 15.15: Las fracciones 3 del factorial 2*. 


Cómo se determinan los alias en general 


En general, para un diseño 2", cada efecto, además de aquel definido por el generador, 
tendrá un solo socio alias. El efecto definido por el generador no tendrá alias en otro 


2 


efecto, sino que su alias será la media, ya que el estimador de mínimos cuadrados será 
la media. Para determinar el alias de cada efecto, sólo se comienza con la relación defi- 
mitoria, digamos ABC = f, para el diseño 2%, Entonces, para obtener, digamos, el alias 
para el efecto A, se multiplica A por ambos lados de la ecuación ABC = f y se reduce 
cualquier exponente por el módulo 2. Por ejemplo, 

ÁA- ABC =A, con loque BC=A. 


En forma similar, 
B=B-.ABC=<ABC =AC, 
y, por supuesto, 
C=C-ABC=ABC" =AB. 
Ahora, para la segunda fracción, es decir, la definida por la relación ABC = —1, 


A = —BC, B=-—AC; C = —AB. 


Como resultado, el valor numérico del efecto A en realidad estima 4 — BC. De manera 
similar, el valor de B£ estima B — AC, y el valor de € estima € — AB. 
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15.8.Análisis de Experimentos factoriales fraccionados 


La dificultad para realizar pruebas formales de significancia con datos de experimen- 
tos factoriales fraccionados radica en la determinación del término del error apropiado. 


Á menos que se disponga de datos de experimentos anteriores, el error debe provenir de 
una agrupación de contrastes que representan efectos que se presume son despreciables. 

Las sumas de cuadrados para los efectos individuales se calculan usando en esencia 
los mismos procedimientos que se emplean para obtener el factorial completo. Es posl- 
ble formar un contraste en las combinaciones de tratamientos construyendo la tabla de 
signos positivos y negativos. Por ejemplo, para media réplica de un experimento facto- 
rial 2* con ABC contraste de definición, un conjunto posible de combinaciones de 
tratamientos, junto con el signo algebraico apropiado para cada contraste que se usa para 
calcular los efectos y las sumas de cuadrados de los distintos efectos, sería como el que 
se presenta en la tabla 15.13. 


Tabla 15.13: Signos para los contrastes en media réplica de un experimento factorial 2* 


de tratamientos 4 B C AB AC BC ABC 
a too o o - + + 
b mn $ == ». $ o. 4 
abc HFoO+ +4 + + + + 


Observe que en la tabla 15.13 los contrastes A y BC son idénticos, lo cual ilustra los 
alias. Asimismo, B = AC y € =AB. En esta situación se tienen tres contrastes ortogo- 
nales que representan los 3 grados de libertad disponibles. 51 se obtuvieran dos observa- 
ciones para una de las cuatro combinaciones de tratamientos, entonces tendríamos 
un estimado de la varianza del error con 4 grados de libertad. 51 suponemos que los efec- 
tos de interacción son despreciables, probar la significancia de todos los efectos 

Un ejemplo del efecto y la suma de cuadrados correspondientes es 


_a—b=—c+abe 


e (a—b=e4abo” 


SCA=. 
2 Ñ 2. 


En general, la suma de cuadrados con un grado de libertad para cualquier efecto en 
una fracción 2 de un experimento factorial 2* (p < k) se obtiene elevando al cuadrado 
los contrastes en los totales de los tratamientos seleccionados y dividiendo entre 2*-Fn, 
donde n es el número de réplicas de estas combinaciones de tratamientos. 


15.9.Diseños de fracciones superiores y depurados 


Algunas situaciones industriales requieren que el analista determine cuáles factores con- 
trolables, de entre un número grande de ellos, tienen un efecto sobre alguna respuesta 
importante. Los factores pueden ser cualitativos o variables de clase, variables de regre- 
sión o una mezcla de ambas. El procedimiento analítico puede requerir un análisis de va- 
rianza, una regresión o ambos. A menudo el modelo de regresión utilizado sólo incluye 
los efectos lineales principales, aunque tal vez sea posible estimar algunas interacciones. 
La situación exige la selección de variables y los diseños experimentales resultantes se 
denominan diseños de filtrado. Es evidente que los diseños ortogonales de dos niveles 
saturados o casi saturados son candidatos viables. 


273 


Resolución del diseño 


A menudo los diseños ortogonales de dos niveles se clasifican según su resolución, la 
cual es determinada por la siguiente definición. 


Definición 15.1: La resolución de un diseño ortogonal de dos niveles es la longitud de la interacción más 
pequeña (menos compleja) de entre el conjunto de contrastes de definición. 


51 el diseño se construye como un factorial completo o fraccionado, ya sea un di- 
seño 2, o bien, 2, p=1,2,...,k— 1, el concepto de resolución del diseño es un auxi- 
har para determinar el efecto de los alias. Por ejemplo, un diseño de resolución 11 sería 
de poca utilidad, ya que habria al menos un caso de alias de un efecto principal con otro. 
Un diseño de resolución 11 tendría todos sus efectos principales (lmeales) ortogonales 
entre sí. No obstante, habrá algunos alias entre los efectos lineales y las interacciones de 
dos factores. Entonces, es evidente que si el analista está interesado en estudiar los efectos 
pruncipales (lineales en el caso de la regresión) y no hay interacciones de dos factores, 
entonces se requiere un diseño cuya resolución sea de al menos IU. 


15,10. Construcción de diseños de resolución III y IV con 8 16 y 32 puntos de 
diseño 


Es posible construir diseños útiles con resoluciones HI y (VW para 2 a 7 variables con 
$ puntos de diseño. Empezamos con un factorial 2* que haya sido saturado simbólica- 
mente con interacciones. 


xi du] Xx A A 
—1 —1 —1 1 1 1 —1 

1 —1 —1 —]l —1 1 1 
—1 1 —1 —1 1 —1 1 
—1 —1 1 1 —1 —1 1 

1 1 —1 1 —] —1 —]1 

1 —1 1 —1 1 —1 —]1 
—1 1 1 —1 —] 1 —]1 

1 1 1 1 1 1 1 


Es evidente que, con sólo reemplazar las columnas de interacción por nuevos efec- 
tos principales para las siete variables, se puede construir un diseño de resolución 1H. 


Por ejemplo, podríamos definir 
x=, (contraste de definición ABD) 
X, =X,X, (contraste de definición ACE) 
X, =X,A, (contraste de definición BCF) 


Xx, = 1 IX, (contraste de definición ABCG) 


y obtendríamos una fracción 27* de un factorial 2”. Las expresiones anteriores identifican 
los contrastes de definición elegidos. Resultan once contrastes de definición adicionales 
y todos contienen al menos tres letras. Asi, el diseño es de resolución 11. Es evidente que 
si se comienza con un subconjunto de columnas aumentadas y se concluye con un diseño 
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Tabla 15.16: Algunos diseños 2" de resoluciones TI, IV, Y, VI y YH 





Número de Número de 
factores Diseño puntos Generadores 
3 e 4 C =+AB 
4 + 8 D = +ABC 
5 rima 8 D=xAB; E =%AC 
6 E 32 F =+ABCDE 
2 16 E =<ABC; F =+BCD 
q 8 D=+AB; F =3+BC; E =3+AC 
7 os 64 G = +ABCDEF 
ei 32 E =+ABC ; G = +ABDE 
si 16 E =iABC; F=3+BCD; G =4+ACD 
sie E D=+AB; E =3+AC; F=2%BC; G = ABC 
8 =>” 64 G=HABCD; H =+ABEF 
pS 32 F=+ABC; G=3+ABD; H = +4BCDE 
rm 16 E =+BCD; F =3+ACD; G =+ABC; H =+ABD 


que incluye menos de Y variables de diseño, el resultado es un diseño de resolución UI 
en menos de siete variables. 

Es posible construir un conjunto similar de diseños posibles para 16 puntos de di- 
seño, comenzando con un diseño 2* saturado con interacciones. Las definiciones de las 
variables que corresponden a estas interacciones producen diseños de resolución IM por 
medio de 15 variables. De manera similar, se pueden construir diseños que contengan 32 
corridas, comenzando con un diseño 2*, 

La tabla 15.16 proporciona lineamientos para construir diseños de $, 16, 32 y 64 
puntos, con resolución III, IW e incluso Y. La tabla proporciona el número de factores, 
el número de corridas y los generadores que se utilizan para producir los diseños 2'-*. 
El generador dado se emplea para aumentar el factorial completo que contiene k — p 
factores. 
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15.11. Otros diseños de resolución IM de dos niveles diseños de Plackett-Burman 


222 2 
ll 
JE 


Una familia de diseños desarrollada por Plackett y Burman (1946, véase la bibliografía) 
llena el vacio del tamaño de la muestra que existe con los factonriales fraccionados. Éstos 
son útiles muestras de tamaño 2”, es decir, incluyen muestras de tamaños 4, 8, 16, 
32, 04... Los diseños de Plackett -Burman incluyen 4r puntos de diseño, por lo que se 
dispone de diseños de tamaño 12, 20, 24, 28, etcétera. Estos diseños de Plackett-Burman 
de dos niveles son diseños de resolución ÚUl y son muy fáciles de construir. Se propor- 
cionan “renglones básicos” para cada tamaño de muestra. Estos renglones de signos + y 
— son A — 1 en número. Para construir las columnas de la matriz de diseño se comienza 
con el renglón básico y se hace una permutación cíclica sobre las columnas, hasta que 
se forman £ columnas (el número deseado de variables). Después se llena el último 


renglón con signos negativos. El resultado será un diseño de resolución MI con £ variables 
(k =1,2...., NM. Los renglones básicos son los siguientes: 
FE +- + -—-+---_—-—$+s$+- 


++ - ++ 


+ + + 
+ + + 
+ 1 + 
+ 1 + 
+ + | 
l|l+ ++ 
+ | 
| 

+ 

+ 

| 

| 

+ 

+ 

| 

| 

dl 

| 

+ 

| 

| 

| 

| 





Ejemplo 15.7 


Solución: 


Construya un diseño depurado de dos niveles con 6 variables que contengan 12 puntos 
de diseño. 

Comience con el renglón básico en la columna inicial. La segunda columna se forma 
llevando la entrada inferior de la primera columna a la parte superior de la segunda, y 
repitiendo la primera. La tercera columna se forma del mismo modo, utilizando las entra- 
das de la segunda columna. Cuando haya un número suficiente de columnas sencillamen- 
te se llena el último renglón con signos negativos. El diseño resultante es como sigue: 


X1 A7 A3 Xa4 As Xñ 
Ho = + == -—  - 
+ + == +4 -—  - 
== + + == +  —- 
+ == + + - + 
+ + == + + - 
+ + + - + + 
== + +4 + -— + 
= + + + - 
== + + + 
to —  - o + . 
= + == o - o + 


Los diseños de Plackett-Burman son populares en la industria para situaciones de 
filtrado. Como se trata de diseños de resolución IL todos los efectos lineales son orto- 
gonales. Para cualquier tamaño de muestra el usuario dispone de un diseño para £ = 2, 
3,..., N — 1 variables. 

La estructura de altas para el diseño de Plackett-Burman es muy complicada, por 
lo que el usuario no puede construir el diseño con un control completo de la estructura 
de alias, como en el caso de los diseños 2* o 2%. 5m embargo, en el caso de modelos de 
regresión el diseño de Plackett-Burman acepta interacciones (aunque no serán ortogona- 
les) cuando se dispone de suficientes grados de libertad. J 
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15.12. Diseño robusto de parámetros de Taguchi 


En el estudio de caso 15.2 se ajustó un modelo de regresión a un conjunto de datos con 
la meta específica de encontrar condiciones en esas variables de diseño que optimizaran 
(maximizaran) la eficiencia de purificación del carbón. El modelo incluía tres efectos 
principales lineales, tres términos de interacción de dos factores y un término de inte- 
racción de tres factores. La respuesta del modelo era la eficiencia de la purificación, y 
las condiciones óptimas de x,, x, y x, se obtuvieron utilizando los signos y la magnitud 


de los coeficientes del modelo. En este ejemplo se utilizó un diseño de dos niveles para 
mejorar el proceso o para optimizarlo. En muchas áreas de la ciencia y de la ingeniería 
la EEANEA se extiende para incluir modelos y diseños más complicados a los que, 
en conjunto, se les denomina metodología de superficie de respuesta (MSR). Esta 

stodología abarca tanto métodos gráficos como analíticos. El término superficie de 
respuesta se deriva de la apariencia de la superficie multidimensional de la respuesta 
estimada constante de un modelo de segundo orden, es decir, un modelo con términos de 
primer y segundo orden. Á continuación se presenta un ejemplo. 





El modelo de superficie de respuesta de segundo orden 


En muchos ejemplos industriales de optimización de procesos se utiliza un modelo de 
superficie de respuesta de segundo orden. Para el caso de, digamos £ = 2 variables de pro- 
ceso o variables de diseño, y una sola respuesta y, el modelo es dado por 


hdi B, + Bx, + Bx, + B, 1 + B,x5 + AB, XA, + €. 


Aquií se tienen £ = 2 términos de primer orden, dos términos puros de segundo orden o 
cuadráticos y un término de interacción dado por B, AX, Los términos x, y x, se codif- 
can en la forma conocida de +1. El término € denota al acostumbrado error del modelo. 
En general, para £ variables de diseño el modelo contendrá 1 +£ +4 + e términos del 
modelo y, por lo tanto, el diseño experimental debe contener al menos un número similar 
de puntos de diseño. Además, los términos cuadráticos requieren que las variables de 
diseño estén fijas en el diseño con al menos tres niveles. Al diseño resultante se le deno- 
mina diseño de segundo orden. Á continuación se presenta un ejemplo. 


El siguiente diseño central compuesto (DCC) y el ejemplo fueron tomados 
de Myers, Montgomery y Anderson-Cook (2009) Quizás la clase más ute de di- 
seños de segundo orden sea la clase de los diseños centrales compuestos. El ejemplo 
que se presenta en la tabla 15.17 se refiere a un proceso químico en el que la tempe- 
ratura de reacción, £,, y la concentración del reactante, É£., se muestran en sus niveles 
naturales y también de Fried codificada. Cada factor tiene cinco niveles. Además, se 
incluye el orden en que se realizaron las observaciones de x, y x,. La columna de la de- 
recha proporciona los valores de la respuesta y, el porcentaje de conversión del proceso. 
Los primeros cuatro puntos de diseño representan los conocidos puntos factoriales en los 
niveles +1. Los siguientes cuatro puntos se conocen como puntos axiales, los cuales 
van seguidos por las corridas centrales que se explicaron y ejemplificaron antes en este 
capitulo. De esta manera, los cinco niveles de cada uno de los dos factores son —1, +1, 
—1.414, 41.414 y 0. En la figura 15.16 se presenta una imagen clara de la geometría del 
diseño central compuesto para este ejemplo de £ = 2. En esta figura se ilustra la fuente 
del término puntos axiales. Estos cuatro puntos se localizan sobre los ejes factoriales, a 
una distancia axial de (y = y2 = 1.414 a partir del centro del diseño. De hecho, para este 
DCC en particular, los puntos del perímetro, axiales y factoriales, se encuentran todos a 
la distancia y2 del centro del diseño, y como resultado tenemos ocho puntos equidistan- 
tes sobre un circulo más cuatro réplicas en el centro del diseño. 
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16. ESTADÍSTICA NO PARAMÉTRICA 


16.1.Pruebas no paramétricas 


La mayoria de los procedimientos de prueba de hipótesis que se presentaron en los capi- 
tulos anteriores se basan en la suposición de que las muestras aleatorias se seleccionan 
de poblaciones normales. Por fortuna la mayor parte de estas pruebas aún son confiables 
cuando existen ligeras desviaciones de la normalidad, en particular cuando el tamaño de 
la muestra es grande. Tradicionalmente, a tales procedimientos de prueba se les denom:- 
na métodos paramétricos. En este capítulo consideramos varios procedimientos de 
prueba alternativos, llamados métodos no paramétricos o de distribución libre, que a 
menudo no suponen conocimiento de ninguna clase acerca de las distribuciones de las 
poblaciones subyacentes, excepto, quizá, que éstas son continuas. 

Los analistas de datos están usando procedimientos no paramétricos o de distribu- 
ción libre cada vez con mayor frecuencia. En la ciencia y la ingeniería hay muchas 
aplicaciones en las que los datos no se reportan como valores de un continuo, sino, 
más bien, como una escala ordinal en la que es natural asignar rangos a los datos. De 
hecho, en este capitulo el lector notará muy pronto que los métodos de distribución 
libre aquí descritos implican un análisis de rangos. La mayoria de los analistas cons1- 
deran que los cálculos involucrados en los métodos no paramétricos son muy atractivos 
e intuitivos. 

Para revisar un ejemplo donde se aplica una prueba no paramétrica considere la s1- 
tuación en que dos jueces deben clasificar cinco marcas de cerveza de alta calidad asig- 
nando la categoría 1 a la marca que se considera que tiene la mejor calidad general, la 
categoría 2 a la segunda mejor, y asi sucesivamente. Luego se puede utilizar una prueba 
no paramétrica para determinar si existe algún acuerdo entre los dos jueces. 

También debemos señalar que las pruebas no paramétricas tienen asociadas varias 
desventajas. La primera es que no utilizan toda la información que proporciona la mues- 
tra, por lo tanto, cuando se pueden aplicar ambos métodos, estas últimas muestran ser 
menos eficientes que el procedimiento paramétrico correspondiente. En consecuencia, 
para lograr la misma potencia que la prueba paramétrica correspondiente, una prueba no 
paramétrica requerirá un tamaño muestral mayor que el que requeriría la primera. 

Como antes indicamos, ligeras desviaciones de la normalidad dan como resultado 
desviaciones menores del ideal para las pruebas paramétricas estándar. Esto es particu- 
larmente cierto para la prueba 1 y la prueba F. En el caso de la prueba t y la prueba F, el 
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16.2. Prueba de signo 


El lector debería recordar que los procedimientos que se estudiaron en la sección 10.4 
para probar la hipótesis nula de que 1 = 1, son válidos sólo si la población es aproxima- 
damente normal o sí la muestra es grande. 51n embargo, sin < 30 y la población deci- 
didamente no es normal, debemos recurrir a una prueba no paramétrica. 

La prueba de signo se utiliza para probar hipótesis sobre una mediana de la población. 
En el caso de muchos de los procedimientos no paramétricos, la media es reemplazada 
por la mediana como el parámetro de ubicación pertinente a probar. Recuerde que la 
mediana muestral se defimó en la sección 1.3. El equivalente de la población, que se 
denota con [£, tiene una definición análoga. Dada una variable aleatoria X, [1 se define de 
modo que P(X > 1) < 0.5 y P(X < 1) < 0.5. En el caso continuo, 


P(X > fi) = PX < fi) = 


Por supuesto, s1 la distribución es simétrica, la media y la mediana de la población son 
iguales. Al probar la hipótesis nula A, de que fi = yA en pa con la hipótesis 
alternativa adecuada, con base en una muestra aleatoria de tamaño a, reemplazamos 
cada valor de la muestra que exceda a A, con un signo más, y cada valor de la muestra 
menor que A, con un signo menos. 51 la hipótesis nula es verdadera y la población es 
simétrica, la suma de los signos más debería ser casi igual a la suma de los signos menos. 
Cuando un signo aparece con más frecuencia de lo que debería, con base sólo en el azar, 
rechazamos la hipótesis de que la mediana de la población fi es igual a A. 

En teoría, la prueba de signo sólo se puede aplicar en situaciones en las que fi, no 
puede ser igual al valor de cualquiera de las observaciones. Aunque la probabilidad de 
obtener una observación muestral exactamente igual a E, cuando lá población es cont- 
nua es de cero, en la práctica un valor de la muestra igual a [£, ocurre con frecuencia 
debido a una falta de precisión en el registro de los datos. Cuando se observan valores de 
la muestra iguales a A, se excluyen del análisis, lo cual da como resultado que se reduz- 
ca el tamaño de la muestra. 

El estadistico de prueba adecuado para la prueba de signo es la variable aleatoria 
binomial X, que representa el número de signos más en la muestra aleatoria. 51 la hipó- 
tesis nula de que £ = 18 es verdadera, la probabilidad de que un valor muestral dé como 
resultado un signo más o uno menos es igual a 1/2. Por lo tanto, para probar la hipótesis 
nula de que 1 = Bl. en realidad probamos la hipótesis nula de que el número de signos 
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más es un valor de una variable aleatoria que tiene una distribución binomial con el pa- 
rámetro p = 1/2. Por lo tanto, los valores P para las alternativas unilateral y bilateral se 
pueden calcular usando esta distribución binomial. Por ejemplo, probando 


Ho: B= Ho, 
Ai: B< Ho, 
se rechaza A, a favor de A, sólo si la proporción de signos más es lo suficientemente 
menor que 1/2, es decir, cuando el valor x de la variable aleatoria es pequeño. Por lo 
tanto, si el valor P que se calcula 
P=P(X < x cuando p =1/2) 


es menor o igual que algún nivel de significancia d preseleccionado, se rechaza A, a 
favor de A. Por ejemplo, cuando n = 15 y x = 3, en la tabla A.1 encontramos que 


3 


a=Ú 
de manera que la hipótesis nula 4 = fi, realmente se puede rechazar a un nivel de signi- 
ficancia de 0.05 pero no a un nivel de 0.01. 
Para probar la hipótesis 
Hu: B= fio. 
Hi: m1 > Ho. 
se rechaza A, a favor de A, sólo si la proporción de signos más es suficientemente mayor 
que 12, es decir, cuando x es grande. En consecuencia, si el valor P calculado 
P =P(X => x cuando p = 1/2) 
es menor que «e, se rechaza HA, a favor de A... Finalmente, para probar la hipótesis 
Siempre que 2 > 10, las probabilidades binomiales con p = 1/2 se pueden aproxi- 
mar a partir de la curva normal, ya que 24p = 13 > 5. Suponga, por ejemplo, que desea- 
mos probar la hipótesis 
Ho: fi= ño. 
Hi: m5 < fp, 


a un nivel de significancia ar = 0.05 para una muestra aleatoria de tamaño 1 = 20 que 
produce x = 6 signos más. 51 utilizamos la aproximación de la curva normal con 


fi=np = (2040.5) = 10 











6.5 — 10 
z2= == =-—-1.57. 
2.236 


Por lo tanto, 


P=P(X < 6) = P(Z < —1.57) = 0.0582, 


que conduce a no rechazar la hipótesis nula. 
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16.3.Prueba de rango con signo 


El lector debe notar que la prueba de signo sólo utiliza los signos más y menos de las 
diferencias entre las observaciones y Ho en el caso de una muestra, o los signos más y 
menos de las diferencias entre los pares de observaciones en el caso de muestras en pa- 
res; no se toma en cuenta la magnitud de esas diferencias. Una prueba que utiliza direc- 
ción y magnitud, propuesta en 1945 por Frank Wilcoxon, ahora se comúnmente 
como prueba de rango con signo de Wilcoxon. 

El analista puede extraer más información de los datos de manera no paramétrica sl 
es razonable aplicar una restricción adicional a la distibución de la que se toman los 
datos. La prueba de rango con signo de Wilcoxon se aplica en el caso de una distribu- 
ción continua simétrica. En esta condición se prueba la hipótesis nula 4 = fi. Primero 
restamos fl, de cada valor muestral y descartamos todas las diferencias iguales a cero. 
Las diferencias restantes se ordenan sin importar el signo. 5e asigna una categoría de la 
la diferencia absoluta más pequeña, es decir, sin signo, una categoría de 2 a la siguiente 
más pequeña, y así sucesivamente. Cuando el valor absoluto de dos o más diferencias es 
el mismo, se asigna a cada uno el promedio de los rangos que se asignarian sí las dite- 
rencias fueran distinguibles. Por ejemplo, sí la quinta y la sexta diferencias más peque- 
ñas tienen el mismo valor absoluto, a cada una se le asignaría una categoría de 5.5. 51 la 
hipótesis [1 = fl, es verdadera, el total de los rangos que corresponden a las diferencias 
positivas debería ser casi igual al total de los rangos que corresponden a las diferen- 
clas negativas. Representemos estos totales con w, y w_, respectivamente. Designamos 
el más pequeño de w y w_ pa 

Al seleccionar muestras repetidas esperariamos que w, y W_ y, por lo tanto, w varia- 
rá De esta manera, consideramos aw, Ww_ y w como valores de las correspondientes 
variables aleatorias W,, W y W. La hipótesis nula 4 = 1, se puede rechazar a favor de 
la hipótesis alternativa 44 < fl, sólo si w, es pequeña y w_ es grande. De igual manera, la 
hipótesis alternativa 4 > fl, se puede aceptar sólo si w, es grande y w_es pequeña. Para 
una alternativa bilateral se puede rechazar A, a favor de A, sw, 0w_ y, en consecuencia, 
w son suficientemente pequeñas. Por lo tanto, no importa cuál sea la hipótesis alternativa, 
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cuando el valor del estadistico adecuado W, Wo Wes suficientemente pequeño, se 
rechaza la hipótesis nula. 


Dos muestras con observaciones en pares 


Con el fin de probar la hipótesis nula de que se toman muestras de dos poblaciones simé- 
tricas continuas con fi, = fl, para el caso de muestras en pares, se ordenan las diferencias 
de las observaciones en pares sin importar el signo y se procede como en el caso de una 
sola muestra. Los diversos procedimientos de prueba para los casos de una sola muestra 
y de muestras en pares se resumen en la tabla 16.2. 


Tabla 16.2: Prueba de rango con signo 





Ho HH, Calcular 
A < Ho 
A=fo + > Ho w-_ 
BZ Ho w 
fi < fla W+ 
fi = fla ii > fla w-_ 
fs $ fla Ww 


No es dificil mostrar que siempre que a < 5 y que el nivel de significancia no exce- 
da a 0.05 para una prueba de una cola, o a 0.10 para una prueba de dos colas, todos los 
valores posibles de vw, w_ o w conducirán a la aceptación de la hipótesis nula. 51n em- 
bargo, cuando 5 < n < 30, la tabla A.16 muestra valores críticos aproximados de W, y 
Wa niveles de significancia iguales a 0.01, 0.025 y 0.05 para una prueba de una cola y 
valores críticos de W a niveles de significancia iguales a 0.02, 0.05 y 0.10 para una prue- 
ba de dos colas. $e rechaza la hipótesis nula sí el valor calculado w,, w_0w es menor o 
igual que el valor tabulado apropiado. Por ejemplo, cuando n = 12, la tabla A.16 indica 
que se requiere un valor de w, < 17 para que la hipótesis alternativa unilateral fi < L, 
sea significativa al nivel 0.05. 


16.4.Prueba de la suma de rangos 


Como antes indicamos, el procedimiento no paramétrico por lo general es una alternati- 
va adecuada para la prueba de la teoría normal cuando la suposición de normalidad no 
es válida. Cuando nos interesa probar la igualdad de las medias de dos distribuciones 
continuas que evidentemente no son normales, y las muestras son independientes, es de- 
cir, que no hay emparejamiento de observaciones, la prueba de la suma de rangos 
de Wilcoxon o la prueba de dos muestras de Wilcoxon es una alternativa apropiada a 
la prueba f de dos muestras que se describe en el capitulo 10. 

Probaremos la hipótesis nula A, de que e, = 1, en comparación con alguna hipóte- 
sis alternativa adecuada. Primero seleccionamos una muestra aleatoria de cada una de las 
poblaciones. Sea n, el número de observaciones en la muestra más pequeña y n, el núme- 
ro de observaciones en la muestra más grande. Cuando las muestras son de igual tamaño 
ñ, y n,se pueden asignar de manera aleatoria. $e ordenan las 1, + n, observaciones de las 
muestras combinadas en orden ascendente y se sustituye un rango de 1, 2,...,n, + 1, para 
cada observación. En el caso de empates (observaciones idénticas), se reemplazan las 
observaciones por la media de los rangos que tendrían las observaciones 51 fueran distin- 
guibles. Por ejemplo, s1 la séptima y octava observaciones fueran idénticas, se asignaria 
un rango de 7.5 a cada una de las dos observaciones. 

La suma de los rangos que corresponden a las n, observaciones en la muestra más 
pequeña se denota con w.. De manera similar, el valor w, representa la suma de los », 
rangos que corresponden a la muestra más grande. El total w, + w, depende sólo del 
número de observaciones en las dos muestras y de ninguna manera resulta afectado por 
los resultados del experimento. Por lo tanto, sin, = 3 y n,=4, entonces w, + w, = 1+ 
2+-+7= 28, sin importar los valores numéricos de las observaciones. En general, 
(mí +2 M1 +12 +1) 

HS 


la suma antmética de los enteros 1, 2...., n +1, Una vez que se determina W,. Es más 
fácil calcular w, mediante la fórmula 


WM] - Wa = 


(ni +1n:Kn 1, +12 +1) 
Wa = ———— — Wi¡. 





282 


283 


que E, y UE, tienen distribuciones muestrales simétricas y toman valores en el intervalo 
de O a n n,, tales que 4, + 4, =N,A,. 

De las fórmulas para 4, y 4, vemos que u, será pequeña cuando w, es pequeña, y 1, 
será pequeña cuando vw, sea pequeña. En consecuencia, la hipótesis isla se rechazará 
slempre que los estadísticos apropiados El, El, o U tomen un valor menor o igual que el 
valor crítico deseado dado en la tabla A. 17. Los diversos procedimientos de prueba se 
resumen en la tabla 16.4. 


Tabla 16.4: Prueba de la suma de rangos 


H y Hi Calcular 
iy < Ja 4 
fr = fla Hr > fio 143 
li $ plz u 


La tabla A.17 proporciona valores críticos de €, y €, para niveles de significancia 
iguales a 0.001, 0.01, 0.025 y 0.05 para una prueba de una cola, y valores críticos de U' 
para niveles de significancia iguales a 0.002, 0.02, 0.05 y 0.10 para una prueba de dos 
colas. 51 el valor observado de u,, 4,0 4 e5 menor o igual que el valor crítico tabulado, 
se rechaza la hipótesis nula al abel de significancia que se indica en la tabla. Suponga, 
por ejemplo, que deseamos probar la hipótesis nula de que 4, = 1, en comparación 
con la hipótesis alternativa unilateral de que 1, < £, aun nivel de significancia de 0.05 
para muestras aleatorias de tamaños 1, = 3 y n, = 53, que producen el valor w, = $. Se 
sigue que 


Nuestra prueba de una sola cola se basa en el estadístico U,. 51 se usa la tabla A.17, se 
rechaza la hipótesis nula de medias iguales cuando 1, < 1. Como au, = 2 no cae en la 
región de rechazo, no se puede rechazar la hipótesis nula. 


Teoría normal de aproximación para dos muestras 


Cuando n, y n, exceden a 8, la distribución muestral de €, (o U,) se aproxima a la distri- 
bución normal con media y varianza dadas por 





¿a + 
Hu, —_- ” Y my” 12 a 


En consecuencia, cuando 1, es mayor que 20, el valor máximo en la tabla A.17, y n, es 
al menos 9, se puede utilizar el estadístico 


para la prueba, con la región crítica que cae ya sea en alguna o en ambas colas de la 
distribución normal estándar, dependiendo de la forma de A. 

El uso de la prueba de suma de rangos de Wilcoxon no se restringe a poblaciones no 
normales. $e puede utilizar en vez de la prueba 1 de dos muestras las poblaciones 
son normales, aunque la potencia será menor. La prueba de suma de rangos de Wilcoxon 
slempre es superior a la prueba £ para poblaciones definitivamente no normales. 


16.5.Prueba de Kruskal Wallis 
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En los capitulos 13, 14 y 15 la técnica del análisis de varianza resalta técnica ana- 
lítica para probar la igualdad de £ => 2 medias de la población. Sn embargo, el lector 
debería recordar que para que la prueba F sea teóricamente correcta se debe suponer 
normalidad. En esta sección investigamos una alternativa no paramétrica al análisis de 

La prueba de Kruskal-Wallis, también amada prueba H de Kruskal-Wallis, es 
una generalización de la prueba de la suma de rangos para el caso de k > 2 muestras. Se 
utiliza para probar la hipótesis nula A, de que £ muestras independientes provienen de 
poblaciones idénticas. Presentada en 1952 por W. H. Kruskal y W. A. Wallis, la prueba 
constituye un procedimiento no paramétrico para probar la igualdad de las medias, en el 
análisis de varianza de un factor, cuando el expermentador desea evitar la suposición de 
que las muestras se seleccionaron de poblaciones normales. 

Sea 1 (1 = 1, 2,..., k) el número de observaciones en la ¡-ésima muestra. Primero 
combinamos todas las Á muestras y acomodamos las n =1, +1, +- +, observacio- 
nes en orden ascendente, y sustitulmos el rango apropiado de 1, 2,..., n para cada obser- 
vación. En el caso de empates (observaciones idénticas), seguimos el procedimiento 
acostumbrado de reemplazar las observaciones por la media de los rangos que tendrían 
las observaciones si fueran distinguibles. La suma de los rangos que corresponde a las 1, 
observaciones en la ¡-ésima muestra se denota mediante la variable aleatoria R.. Cons1- 
deremos ahora el estadistico 

ko op 
SPAN 


_ nn+1) rar] Hi 


que se aproxima muy bien mediante una distribución chi cuadrada con k— 1 grados de 
libertad, cuando A, es verdadera, siempre y cuando cada muestra conste de al menos 
5 observaciones. El hecho de que 4h, el supuesto valor de A, sea grande cuando las mues- 
tras independientes provienen de poblaciones que no son idénticas nos permite establecer 
el siguiente cniterio de decisión para probar A: 


Prueba de Para probar la hipótesis nula A, de que k muestras independientes provienen de pobla- 
Kruskal-Wallis ciones idénticas se calcula 
Eos 


12 LI 


f=l 


donde r es el valor supuesto de R para ¡= 1,2...., k. Si h cae en la región crítica H > YE 
con v = k— 1 grados de libertad, se rechaza A, al nivel de significancia dr, de otra mane- 
ra no se rechaza H.. 
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16.6.Pruebas de rachas 


Al aplicar los diversos conceptos estadísticos que se presentan a lo largo de este libro 
siempre asumimos que los datos muestrales se reunieron mediante algún procedimiento 
aleatorio. Las pruebas de rachas, que se basan en el orden en el que se obtienen las 
observaciones muestrales, constituyen una técnica útil para probar la hipótesis nula HA, 
de que las observaciones en realidad se obtuvieron al azar. 

Para ilustrar las pruebas de rachas suponga que se encuesta a 12 personas para sa- 
ber s1 utilizan cierto producto. $e cuestionaría seriamente la supuesta aleatoriedad de la 
muestra 51 las 12 personas fueran del mismo sexo. Designaremos a un hombre y a una 
mujer los símbolos HA y M, respectivamente, y registraremos los resultados de 
acuerdo con su género en el orden en que ocurren. Una secuencia común para el expe- 
rimento seria 


MM FFF M FF MMMM, 


donde agrupamos las subsecuencias de simbolos idénticos. Tales agrupamientos se lla- 


Definición 16.1: Una racha es una subsecuencia de uno o más símbolos idénticos que representan una 
propiedad común de los datos. 


S$in importar si las mediciones de la muestra representan datos cualitativos o 
cuantitativos, la prueba de rachas divide los datos en dos categorías mutuamente ex- 
cluyentes: hombre o mujer, defectuoso o no defectuoso, cara o cruz, arriba o abajo de 
la mediana, etcétera. En consecuencia, una secuencia siempre estará limitada a dos 
simbolos distintos. Sea n, el número de simbolos asociados con la categoría de menor 
ocurrencia, y a, el número de simbolos que pertenecen a la otra categoría. Entonces, el 
tamaño de la muestra n =1, + 1, 

Para los n = 12 símbolos en nuestra encuesta tenemos cinco rachas, donde la pri- 
mera incluye dos A, la segunda tres M, y así sucesivamente. 51 el número de rachas es 
mayor o menor que el que esperariamos por el azar, se debe rechazar la hipótesis de que 
la muestra se extrajo al azar. Ciertamente, una muestra que tiene como resultado sólo 
dos corridas, 
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HAHAHAHAAHMMMMM 


o la inversa, es muy improbable que provenga de un proceso de selección aleatorio. Este 
resultado indicaría que las primeras siete personas entrevistadas son hombres, seguidos 
de cinco mujeres. Asimismo, si la muestra tene como resultado el número máximo de 
12 rachas, como en la secuencia altenada 


AMHEMAMAMEAMEAM, 


de nuevo sospechariamos del orden en que se seleccionaron los individuos para la en- 
cuesta. 

La prueba de rachas para la aleatonedad se basa en la variable aleatoria V, el número 
total de rachas que suceden en la secuencia completa del experimento. En la tabla A.18 
se dan valores de P(V < v* cuando HA, es verdadera) para v* = 2, 3,..., 20 rachas y valores 


de n, y n, menores o iguales que 10. Los valores P tanto para pruebas de una cola 
como de dos colas se pueden obtener usando estos valores tabulados. 

En la encuesta anterior presentamos un total de 5 M y 7 A. De aqui, con n, = 35, 
a, = 7 y v =5,en la tabla A.18 observamos que el valor P para una prueba de dos colas es 


P = 2P(V £ 5 cuando A, es verdadera) = 0.394 > 0.05. 


Ex decir, el valor v = 5 es razonable a un nivel de significancia de 0.05 cuando A, es 
verdadera y, por lo tanto, no tenemos suficiente evidencia para rechazar la hipótesis de 
aleatoriedad de nuestra muestra. 

Cuando el número de rachas es grande, por ejemplo, cuando v=l1l yn =5yn,=7, 
entonces el valor Pen una prueba de dos colas es 


P= 2P(V > 11 cuando A, es verdadera) = 2[1 — P(V< 10 cuando A, es verdadera)] 
= 2(1 - 0.992) = 0.016 < 0.05, 


que nos lleva a rechazar la hipótesis de que los valores de la muestra ocurren al azar. 

La prueba de rachas también sirve para detectar desviaciones en la aleatoriedad de 
una secuencia de mediciones cuantitativas a lo largo del tempo, ocasionadas por tenden- 
clas 0 periodos. Al reemplazar cada medición en el orden en que se obtiene, con 
simbolo más s1 caen por arriba de la mediana, o con un simbolo menos si caen por debajo 
de la mediana, y omitiendo todas las mediciones que son exactamente iguales a la me- 
diana, se genera una secuencia de signos de más y menos que se somete a prueba para 
verificar su aleatoriedad, como se ilustra en el siguente ejemplo. 


16.7.Límites de tolerancia 
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En el capítulo 9 se analizaron los límites de tolerancia para una distribución normal de 
mediciones. En esta sección consideramos un método para construir intervalos de toleran- 
cla que sean independientes de la forma de la distribución subyacente. Como se podría 
sospechar, para un grado de confianza razonable serán considerablemente más grandes 
que los que se construyen cuando se supone normalidad, y el tamaño de la muestra que se 
requiere es por lo general muy grande. Los límites de tolerancia no paramétricos se esta- 
blecen en términos de las observaciones más grande y más pequeña en nuestra muestra. 





Límites de Para cualquier distribución de mediciones los límites de tolerancia bilaterales son indi- 
tolerancia cados por las observaciones más grande y más pequeña en una muestra de tamaño A, 
bilaterales donde nr se determina de manera que se asegure, con 100(1 — y)% de confianza, que al 
menos la proporción | — ade la distribución está incluida entre los extremos de la muestra. 





La tabla 4.19 proporciona los tamaños de la muestra requeridos para los valores 
seleccionados de y y 1 —« Por ejemplo, cuando “y = 0.01 y 1 — a = 095, debemos selec- 
cionar una muestra aleatona de tamaño a = 130 para tener 99% de confianza en que al 
menos 95% de la distribución de mediciones está incluido entre los extremos de la muestra. 

En vez de determinar un tamaño muestral 2 tal que una proporción especifica de 
mediciones esté contenida entre los extremos de la muestra, en muchos procesos indus- 
triales es deseable determinar un tamaño de la muestra tal que una proporción fija de la 
población caiga por debajo de la observación más grande (o por arriba de la más pequeña) 
de la muestra. Tales límites se denominan límites de tolerancia unilaterales. 


Límites de Para cualquier distribución de mediciones un límite de tolerancia unilateral se determina 
tolerancia mediante la observación más pequeña (o más grande) en una muestra de tamaño a, don- 
unilaterales de n se determina de manera que se pueda asegurar con 100(1 — y/9% de confianza que al 
menos la proporción 1 — ex de la distribución excederá a la observación más pequeña 

(menor la mayor) de la muestra. 





La tabla A.20 muestra los tamaños de la muestra requeridos, correspondientes a 
valores seleccionados de y y 1 — er De aquí, cuando y = 0.05 y 1 — a = 0.70, debemos 
elegir una muestra de tamaño n = 9 para tener 95% de confianza en que 70% de nuestra 
distribución de mediciones excederá la observación más pequeña de la muestra. 


16.8.Coeficiente de correlación de rango 


En el capítulo 11 utilizamos el coeficiente de correlación muestral r para medir el cocti- 
ciente de correlación poblacional p, la relación lineal entre dos variables continuas Xy 
Y. S1 los rangos 1, 2...., n se asignan a las observaciones x en orden de magnitud y de 
manera similar a las observaciones y, y s1 estos rangos se sustituyen después con los 
walores numéricos reales en la fórmula para el coeficiente de correlación del capitulo 11, 
obtenemos el equivalente no paramétrico del coeficiente de correlación convencional. 
Un coeficiente de correlación calculado de esta forma se conoce como coeficiente de 
correlación de rangos de Spearman y se denota con r.. Cuando no hay empates entre 
ambos conjuntos de mediciones la fórmula para r, se reduce a una expresión mucho más 
simple que incluye las diferencias d, entre los rangos asignados a los n pares de x y y que 
establecemos ahora. 
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Coeficiente Una medida no paramétrica de la asociación entre dos variables X y Fes dada por el 
de correlación coeficiente de correlación de rango 


de rangos 


6 a 
¿= 1 DY dl, 
ú nin — 1) a ú 


donde d, es la diferencia entre los rangos asignados a x, y y, y nes el número de pares de 
datos. 


En la práctica, la fórmula anterior también se usa cuando hay empates entre las ob- 
servaciones 1 0 y. Los rangos para observaciones empatadas se asignan de la misma 
manera que en la prueba de rango con signo al promediar los rangos que se habrian 
asignado s1 las observaciones fueran distinguibles. 

El valor de r, por lo general se acercará al valor que se obtiene al calcular r con base 
en mediciones numéricas y se interpreta de forma muy similar. Como antes, el valor de 
r irá de —1 a +1. Un valor de +1 0 —1 indica una asociación perfecta entre X y Y el 
signo más ocurre para rangos idénticos y el signo menos para rangos inversos. Cuando 
r, se acerca a cero, se concluye que las variables no están correlacionadas. 


17. CONTROL ESTADÍSTICO DE CALIDAD 
17.1.Introducción 


La idea de usar técnicas de muestreo y análisis estadistico en un entorno de producción 
tuvo sus comienzos en la década de 1920. El objetivo de este concepto tan exitoso es 
reducir de manera sistemática la variabilidad y el aislamiento asociados con las fuentes 
de dificultades durante la producción. En 1924 Walter A. Shewhart, de la empresa Bell 
Telephone Laboratories, desarrolló el concepto de gráfica de control. Sin embargo, fue 
hasta la Segunda Guerra Mundial se generalizó el uso de este tipo de gráficas de- 
bido a la importancia que durante ese periodo tuvo el mantenimiento de la calidad en los 
procesos de producción. En las décadas de 1950 y 1960 el desarrollo del control de calidad 
y el área general de seguridad de la calidad crecieron con rapidez, en particular con el 
surgimiento del programa espacial en Estados Unidos. En Japón hubo un amplio y exitoso 
uso del control de calidad gracias a los esfuerzos de W. Edwards Deming, quien trabajó 
como consultor en Japón después de la Segunda Guerra Mundial. El control de calidad ha 
sido, y es, un elemento importante en el desarrollo de la industria y la economia de Japón. 

El control de calidad está recibiendo cada vez más atención como una herramienta 
de administración en la cual se observan y evalúan las características importantes de un 
producto en comparación con algún tipo de estándar. Los diversos procedimientos en el 
control de calidad implican un uso considerable de los procedimientos de muestreo y los 
principios estadísticos expuestos en capitulos anteriores. Los principales usuarios del 
control de calidad son, por supuesto, las corporaciones industriales. Es evidente que un 
programa eficaz de control de calidad mejora la calidad del artículo que se produce y au- 
menta las utilidades. Esto es particularmente cierto en la actualidad, pues los productos 
se fabrican en volúmenes altos. Ántes de que surgiera el movimiento hacia los métodos 
de control de calidad, a menudo ésta se veía afectada debido a la falta de eficiencia, lo 
cual, por supuesto, incrementaba los costos. 
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17.2.Naturaleza de los límites de control 


17.3.Propósitos 


Las ideas fundamentales en las que se basan las gráficas de control son similares en 
estructura a la prueba de hipótesis. Los límites de control se establecen para controlar la 
probabilidad de cometer el error de concluir que el proceso está fuera de control, cuando 
de hecho no lo está. Esto corresponde a la probabilidad de cometer un error tipo l si 
probáramos la hipótesis nula de que el proceso está bajo control. Por otro lado, debemos 
estar atentos al error del segundo tipo, es decir, el de no encontrar el proceso fuera de 
control cuando de hecho si lo está (error tipo 11). De esta manera, la elección de los limi- 
tes de control es similar a la elección de una región crítica. 

Como en el caso de la prueba de hipótesis, el tamaño de la muestra en cada punto es 
importante. La elección del tamaño de la muestra depende en gran medida de la sensib1- 
lidad o potencia de detección del estado fuera de control. En esta aplicación, el concepto 
de potencia es muy similar al de la situación de la prueba de hipótesis. Queda claro que 
cuanto más grande sea la muestra en cada periodo, más rápida será la detección de un 
proceso fuera de control. En cierto sentido los límites de control en realidad definen lo 
que el usuario considera como estar bajo control. En otras palabras, la amplitud dada 
por los límites de control debe depender en cierto sentido de la variabilidad del proceso. 
Como resultado, el cálculo de los límites de control dependerá de manera natural de los 
datos que se tomen de los resultados del proceso. De esta forma, cualquier aplicación del 
control de calidad debe comenzar con el cálculo de una muestra o conjunto de muestras 
preliminar, que establecerá tanto la línea central como los límites del control de calidad. 





de la grafica de control 


Un propósito evidente de la gráfica de control es la vigilancia del proceso, o sea deter- 
minar s1 es o no necesario realizar cambios. Además, la constante y sistemática obten- 
ción de datos a menudo permite a la administración evaluar la capacidad del proceso. 
Es evidente que, si una sola característica de desempeño es importante, el muestreo 
y la estimación continuos de la media y la desviación estándar de esa caracteristi- 
ca de desempeño ofrecen la actualización de lo que el proceso puede hacer en términos 
de desempeño promedio y variación aleatoria. Esto es valioso incluso cuando el proceso 
permanece bajo control durante periodos largos. La estructura sistemática y formal de 
la gráfica de control a menudo puede prevenir una reacción desmesurada ante cambios 
que representen sólo fuctuaciones aleatorias. Obviamente, en muchas situaciones los 
cambios realizados por una reacción desmesurada pueden crear graves problemas que 
son difíciles de resolver. 

Las características de calidad de las gráficas de control por lo general caen en dos 
categorías: variables y atributos. Como resultado, los tipos de gráficas de control con 
frecuencia tenen las mismas clasificaciones. En el caso de la gráfica de los tipos de va- 
nables, la característica suele ser una medida sobre un continuo, como el diámetro o el 
peso. En el caso de la gráfica de atributos, lo que refleja la característica es si el producto 
individual se ajusta a las especificaciones (si está o no defectuoso). Las aplicaciones 
para estas dos situaciones distintas son evidentes. 

En el caso de la gráfica de variables se debe ejercer control sobre la tendencia cen- 
tral y la variabilidad. Lo que a un analista de control de calidad le debe preocupar es s1 
existe o no, en promedio, un cambio en los valores de la característica de desempeño. 
Además, siempre habrá interés por saber s1 algún cambio en las condiciones del proceso 


provoca que disminuya la precisión, es decir, que aumente la variabilidad. Para manejar 
estos dos conceptos es esencial utilizar gráficas de control separadas. La tendencia cen- 
tral es controlada por la gráfica X, donde las medias de muestras relativamente pequeñas 
se dibujan en la gráfica de control. La vanabilidad alrededor de la media se controla 
mediante el rango en la muestra, o la desviación estándar de la muestra. En el cazo de 
muestreo de atributos a menudo la cantidad que se grafica es la proporción de artículos 
defectuosos de una muestra. En la siguiente sección analizamos el desarrollo de gráficas 
de control para los tipos de variables de las caracteristicas del desempeño. 
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17.4.Graficas de control para las variables 


Un ejemplo es una forma relativamente sencilla de explicar los rudimentos de la gráfica 
X para variables. Suponga que en un proceso de fabricación de cierta parte de un motor 
se deben utilizar las gráficas de control de calidad. Suponga también que la media del 
proceso es y = 50 mm y que la desviación estándar es € = 0.01 mm. Imagine que se 
toman muestras en grupos de 5 cada hora y que los valores de la media muestral X se 
registran y grafican como en la figura 17.2. Los límites para las gráficas X se basan en 
la desviación estándar de la variable aleatoria X. Sabemos, a partir de lo expuesto en el 
capitulo 5, que para el promedio de observaciones independientes en una muestra de 
tamaño A, 


donde Fes la desviación estándar de una observación individual. Los límites de control 
están diseñados para dar como resultado una pequeña probabilidad de que un valor dado 
de Xesté fuera de los límites dado que, en realidad, el proceso está bajo control, es decir, 
a = 50. 51 recurrimos al teorema del límite central, tendremos que, en las condiciones 
en las que el proceso está controlado, 


Como resultado, 100(1 — (4:)% de los valores X cae dentro de los límites cuando el pro- 
ceso está bajo control s1 utilizamos los límites 








e or ' i or 
LC = AZ —= = 0 — Za, (0.0045), LOS = Ut zp 
pl aa yn aa ( ) pl af yn 
Aquí LCI y LOS representan el límite de control inferior y el límite de control supenor, 
respectivamente. Con frecuencia las gráficas X se basan en límites denominados “tres- 
sigma”, refinéndonos, por supuesto, az ._=3 ya límites que se convierten en 


= 50 + 2/2 (0.0045). 


Lan 


pz — 
En nuestro ejemplo, los límites superior e inferior son 
LCI = 50 — 3(0.0045) = 49.9865, LCS = 50 + 3(0.0045) = 50.0135. 


Por consiguiente, s1 vemos la estructura de los límites 30 desde el punto de wista de la 
prueba de hipótesis para un punto muestral dado, encontraremos que hay una probabilidad 
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o 1 2 3 4 5 6 F 8 9 10 
Figura 17.2: Los límites de control 30 para el ejemplo de la parte del motor. 


de 0.0026 de que el valor X caiga fuera de los límites de control, dado que el proceso está 
bajo control. Esta es la probabilidad de que el analista determine de manera errónea que 
el proceso está fuera de control (véase la tabla A.3). 

El ejemplo anterior no sólo ilustra la gráfica X para las variables, también propor- 
ciona al lector una idea general de la naturaleza de las gráficas de control. La línea central 
por lo general refleja el valor ideal de un parámetro importante. Los límites de control 
se establecen a partir del conocimiento de las propiedades de muestreo del estadístico 
que estima el parámetro en cuestión. Con mucha frecuencia implican un múltiplo de la 
desviación estándar del estadistico. Se ha generalizado el uso de límites 30. En el caso 
de la gráfica X que se presenta aquí, el teorema del límite central brinda al usuario una 
buena aproximación de la probabilidad de determinar de forma errónea que el proceso 
está fuera de control. En general, sin embargo, es probable que el usuario no confíe en la 
normalidad del estadístico sobre la línea central. Lo anterior podría dar como resultado 
que no se conozca la probabilidad exacta de cometer un “error tipo 1”. A pesar de esto 
se ha vuelto muy común utilizar los límites ko. Aunque los límites 30 se utilizan am- 
pliamente, en ocasiones el usuario utilizará otro método. Cuando es importante detectar 
de forma rápida una situación fuera de control podría ser apropiado utilizar un múltiplo 
menor de 7. 51 se toman en cuenta los costos de producción, cabe señalar que permi- 
tir que un proceso continúe funcionando fuera de control, incluso por periodos cortos, 
puede resultar más costoso que invertir en la investigación y corrección de las causas de 
la pérdida del control en el proceso. En este caso es evidente que los límites apropiados 
son los límites de control que son más estrictos que los límites 30. 
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subgrupos racionales 


Los valores de la muestra que se utilizan para el control de calidad se dividen en subgru- 
pos, en los que una muestra representa un subgrupo. Como antes indicamos, el orden en 
el tiempo de producción es en realidad una base natural para la selección de los subgru- 
pos. Podríamos considerar el esfuerzo de control de calidad de manera muy simple como 
1) muestreo, 2) detección de un estado fuera de control y 3) búsqueda de las causas 
atribuibles que puedan ocurrir con el tiempo. Tal vez parezca que la selección de la base 
para estos grupos muestrales es muy sencilla, pero la elección de estos subgrupos de in- 
formación muestral podría tener un efecto importante en el éxito del programa de control 
de calidad. Estos subgrupos con frecuencia se denominan subgrupos racionales. En 
general, sí el analista está interesado en detectar un cambio de ubicación, se considera 
que los subgrupos se deben elegir de manera que la vanabilidad dentro del subgrupo sea 
pequeña, y de manera que haya mayores posibilidades de detectar las causas atribuibles, 
si se presentaran. Ási, deseamos elegir los subgrupos de forma que se maximice la va- 
rabilidad entre subgrupos. Por ejemplo, un método razonable es elegir unidades en un 
subgrupo que se producen de forma cercana en el tiempo. Por otro lado, las gráficas de 
control a menudo se utilizan para controlar la variabilidad, en cuyo caso el estadístico 
de desempeño es la variabilidad dentro de la muestra. Por consiguiente, es más Impor- 
tante elegir los suberupos racionales para maximizar la variabilidad dentro de la mues- 
tra. En este caso las observaciones en los subgrupos se deberian comportar más como 
una muestra aleatoria y la vanabilidad dentro de las muestras necesita ser una descrip- 
ción de la variabilidad del proceso. 

Es importante señalar que las gráficas de control sobre la variabilidad se deben 
establecer antes de construir gráficas sobre el centro de ubicación (digamos, gráficas xD. 
Cualquier gráfica de control sobre el centro de ubicación en realidad dependerá de la va- 
rabilidad. Por ejemplo, vimos un ejemplo de la gráfica de tendencia central y ésta depende 
de . En las secciones que siguen se analizará un estimado de € a partir de los datos. 


17.5.Graficas de control para artículos defectuosos (uso del modelo de Poisson) 





En el procedimiento anterior supusimos que el artículo bajo consideración es uno que 
está defectuoso, es decir, que no funciona, o uno que no tiene defecto, en cuyo caso el 
artículo funciona y, por lo tanto, es aceptable para el consumidor. En muchas situaciones 
este método del artículo “defectuoso o no” es demasiado simplista. Las unidades pueden 
contener defectos o no cumplir con las especificaciones, y aun asi funcionar bastante 
bien para el consumidor. En realidad, en este caso sería importante ejercer control sobre 
el número de defectos o número de artículos que no cumplen las especificaciones. Este 
tipo de control de calidad tiene aplicación cuando las unidades no son simplistas ni 
grandes. Por ejemplo, el número de defectos puede ser muy útil como objeto de control 
cuando el artículo o unidad es, digamos, una computadora personal. Otro ejemplo es una 
unidad definida por 50 pies de tubería fabricada, donde el número de soldaduras defec- 
tuosas es el objeto del control de calidad; el número de defectos en 50 pies de alfombra 
fabricada o el número de “burbujas” en una hoja grande de vidrio fabricado. 

A. partir de lo aquí descrito queda claro que en este caso no es apropiada la distribu- 
ción binomial. El número total de artículos que no cumplen las especificaciones en una 
unidad o el nómero promedio por unidad se podría usar como la medida para la gráfica 
de control. AÁ menudo se supone que el número de articulos que no cumplen las especi- 
ficaciones en una muestra tiene una distibución de Poisson. Á este tipo de gráfica con 
frecuencia se le llama gráfica C. 

Suponga que el número de defectos Xen una unidad de producto tiene una distribu- 
ción de Poisson con parámetro A. (Aquí 1 = 1 para el modelo de Poisson). Recuerde que 
para la distribución de Poisson, 

A ya 





P(X =1)=2 x=0,1,2.... 


x! 
Aquí, la variable aleatoria A es el número de artículos que no cumplen las especificacio- 
nes. En el capitulo 5 vimos que tanto la media como la varianza de la variable aleatoria 
de Poisson son Á. Por consiguiente, si la gráfica de control de calidad se estructurara de 
acuerdo con los límites 307 acostumbrados, si conociéramos Á tendríamos, 
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Ejemplo 17,5: | La tabla 17.4 representa el número de defectos en 20 muestras sucesivas de rollos de 
hoja metálica, cada uno con 100 pies de largo. Para controlar el número de defectos en 
tales muestras se debe desarrollar una gráfica de control a partir de estos datos prelimi- 
nares. El estimado del parámetro de Poisson A es dado por Á= 5.95. Como resultado, los 
límites de control sugeridos por estos datos preliminares son 


E 


LOS =A+3WA =132678 y LcI=A-3vA=-—13675, 
donde LCI se iguala a cero. 


Tabla 17.4: Datos para el ejemplo 17.5; el control implica el número de defectos en rollos de hojas metálicas 


11 3 
12 T 
13 5 
14 y 
15 7 
16 7 
5 

6 

7 

A 

m. 


ola o] de de La -] 00 


— 


Prom. 5.95 


La figura 17.9 presenta una gráfica de los datos preliminares con los límites de control. 
La tabla 17.5 incluye datos adicionales tomados del proceso de producción. Para 
cada muestra se inspeccionó la unidad en la que se basó la gráfica, a saber, 100 pies del 
metal. Se incluye la información de 20 muestras. La figura 17.10 muestra una gráfica de 
los datos adicionales de producción. Es evidente que el proceso está bajo control, o al 
menos lo estaba en el periodo en el que se tomaron los datos. J 


Tabla 17.5: Datos adicionales del proceso de producción del ejemplo 17.5 


11 YT 

12 
13 
14 
15 
16 
17 
18 
19 
20 


En el ejemplo 17.5 dejamos muy claro que la unidad de muestreo o de inspección 
son 100 pres de metal. En muchos casos en los que el artículo es especifico, como en el 
caso de una computadora personal o el de un tipo específico de dispositivo electrónico, 
la unidad de inspección podría ser un conjunto de artículos. Por ejemplo, el analista 
decide utilizar 10 computadoras en cada subgrupo y de esta forma observar un conteo 
del número total de defectos encontrados. Por consiguiente, la muestra preliminar para 
construir la gráfica de control implica utilizar varias muestras, cada una de 10 compu- 
tadoras. La elección del tamaño de la muestra puede depender de muchos factores. A 
menudo deseamos un tamaño de la muestra que asegure un LC] positivo. 

El analista podría utilizar el número promedio de defectos por unidad de muestreo 
como la medida básica de la gráfica de control. Por ejemplo, para el caso de la compu- 


Número de defectos 


Figura 17.9: Datos preliminares representados 





294 


Número de defectos 





10 15 20 0 5 10 15 20 
Muestra Muestra 


Figura 17.10: Datos adicionales de produc- 


en la gráfica de control para el ejemplo 17.5. ción para el ejemplo 17.5. 


tadora personal, sea la variable aleatoria el número total de defectos 


U = número total de defectos 
n 


que se mide para cada muestra de, digamos, n = 10. Si suponemos que el número de 
defectos por unidad de muestreo es de Poisson con parámetro Á, podemos utilizar el 
método de las funciones generadoras de momento para demostrar que U es una variable 
aleatoria de Poisson (véase el ejercicio de repaso 17.1). De esta manera, la gráfica de 
control para esta situación se caracteriza por lo siguiente: 
O: : ds ec 

LOS =U+3 y a línea central =U, LCI=U—3y Pl 
Aquí, desde luego, Ú es el promedio de los valores U en el conjunto de datos prelimina- 
res o base. El término Ú /n se deriva del resultado que 


E(U) = A, Van(U) = ss 


n' 


y por ello E es un estimado no sesgado de E(U') =A y Un es un estimado no sesgado 


de Var(L') = A/n. Este tipo de gráfica de control a menudo se denomina gráfica U. 


En esta sección basamos toda la explicación de las gráficas de control en el modelo 
de probabilidad de Poisson. Este modelo se ha utilizado en combinación con el 
30. Como explicamos antes en este capítulo, el concepto de límites 30 tiene sus raices 
en la aproximación normal, aunque muchos usuarios consideran que el concepto fun- 
ciona bien como herramienta pragmática incluso sí la normalidad no es siquiera aprox1- 
madamente correcta. La dificultad, desde luego, radica en el hecho de que, en ausencia 
de normalidad, no es posible controlar la probabilidad de una especificación incorrecta de 
un estado fuera de control. En el caso del modelo de Poisson, cuando Á es pequeña 
la distribución es bastante asimétrica, una condición que puede producir resultados inde- 
seables s1 se utiliza el método 30. 
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17.6.Graficas de control de cusum 


La desventaja de las gráficas de control similares a las de Shewhart, que se explicaron y 
ejemplificaron en las secciones anteriores, radica en su incapacidad para detectar peque- 
ños cambios en la media. Un mecanismo de control de calidad que ha recibido mucha 
atención en la literatura estadistica y que se ha utilizado extensamente en la industria es 
la gráfica de suma acumulada (cusum). El método de la gráfica de suma acumulada 
es sencillo y, por lo tanto, atractivo. Para el lector debe ser evidente por qué es más sen- 
sible a pequeños cambios en la media. Considere una gráfica de control para la media 
con un nivel de referencia establecido en el valor W. Considere las observaciones par- 
ticulares X.. A X. Las primeras cusum r son 


$ =X,—W 
$ =51 + (X2 — W) 
$4 = 5 + (A, — W) 


S, =35,-1 + (£, — W). 


Es evidente que la cusum es simplemente la acumulación de las diferencias del nivel de 
referencia. Es decir, 


É 
S:= Y (X,-WM,  k=1,2,.... 
i=1 
La gráfica cusum es, entonces, una gráfica de 5, contra el tiempo. 

Suponga que consideramos que el nivel de referencia W es un valor aceptable de 
la media u. Salta a la vista que, sí no hay cambio en a, la gráfica cusum debería ser 
aproximadamente horizontal, con algunas fuctuaciones menores balanceadas alrededor 
de cero. Ahora, s1 sólo hay un cambio moderado en la media, debe resultar un cambio 
más o menos grande en la pendiente de la gráfica cusum, dado que cada nueva observa- 
ción tiene la probabilidad de contribuir a un cambio y la medida que se grafica acumula 
esos cambios. Desde luego, la señal de que la media ha cambiado reside en la naturaleza 
de la pendiente de la gráfica cusum. El objetivo de la gráfica es detectar cambios que se 
alejan del nivel de referencia. Una pendiente diferente de cero (en cualquier dirección) 
representa un cambio a partir del nivel de referencia. Una pendiente positiva indica un 
aumento en la media por arriba del nivel de referencia, en tanto que una pendiente nega- 
tiva señala una disminución. 
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Las gráficas cusum a menudo se diseñan con un nivel de calidad aceptable defimdo 
(NCA) y un nivel de calidad rechazable (NCR) preestablecido por el usuario. Ambos 
representan valores de la media. 5e podría considerar que éstos desempeñan papeles 
similares a los de las medias nula y alternativa en la prueba de hipótesis. Considere una 
situación en la que el analista desea detectar un aumento en el valor de la media del pro- 
ceso. Usaremos la notación a, para NCA y a, para NOR, y a, >4.. El nivel de referencia 
se fija ahora en 

yr Po FE 
a” 
Los valores de Ss (r = 1,2...) tendrán una pendiente negativa sí la media del proceso está 
en a, y una pendiente positiva si la media del proceso está en A. 


Regla de decisión para las gráficas cusum 


Como antes se expuso, la pendiente de la gráfica cusum proporciona la señal de acción 
para el analista de control de calidad. La regla de decisión exige tomar medidas si, en el 
r-¿simo periodo de muestreo, 


d, >kh, 


donde h es un valor preestablecido que se denomina longitud del intervalo de decisión y 
d, =5,— mín 3. 
leizr—1 
En otras palabras, se toman medidas si los datos revelan que el valor de la cusum real 
excede en una cantidad específica al valor previo de la cusum más pequeño. 

Una modificación en la mecánica que se describió antes facilita el uso del método. 
Describimos un procedimiento que grafica las cusum y calcula las diferencias. Una mo- 
dificación simple implica graficar las diferencias de manera directa y permitir la verifi- 
cación contra el intervalo de decisión. La expresión general para € es muy sencilla. Para 
el procedimiento de cusum, con el que se detectan aumentos en la media, 


d, =máx[0,d,-1 +1(X,— Wo]. 


La elección del valor de A es, por supuesto, muy importante. En este libro no se 
proporcionan los detalles que aparecen en la literatura que trata de esta elección. Para 
una exposición más completa se remite al lector a Ewan y Kemp, 1960, y a Montgomery, 
20000 (véase la bibliografía). Una consideración importante es la longitud esperada de 
la corrida. De manera ideal, la longitud esperada de la corrida es bastante grande bajo 
4 = 1, y muy pequeña cuando y = 4. 
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